Nghiên cứu này nhằm chứng minh tính khả thi của việc xây dựng một mô hình định giá bất động sản thông minh nhằm hỗ trợ các chuyên viên thẩm định của các tổ chức tài chính thực thi nhiệm
Trang 1□TRAO ĐỒI
Xây dựng mô hình định giá bất động sản tự động
hỗ trợ qua trình thẩm định giá trị tài sản bẩo đảm
□ ThS Trần Thị Huế
Khoa Hệ thốngThông tin Quản lý -Họcviện Ngân hàng
Một bất động sản hay một ngôi nhà không chỉ có ý nghĩa tinh thắn to lớn đối với một cá nhân vì đó không chỉ
là nơi trú ngụ mà còn là một tài sản có giá trị lớn Đó cũng là lý do đây chính là loại tài sản bảo đảm phổ biến đối với những hợp đóng tín dụng Tuy nhiên, thị trường bất động sản là một thị trường nhiều biến động và phức tạp,
để thẩm định giá trị của một bất động sản, thẩm định viên cẩn phải có sự hiểu biết sâu sắc về thị trường bất động sản và thông tin của bất động sản Cho nên thẩm định giá tài sản bảo đảm có thể coi là một"nghệ thuật" kết hợp cùng chiến lược phân tích thông tin, đây quả là một điểu khó khăn đối với thẩm định viên Tuy nhiên, thị trường bất động sản rất sôi động và hàng ngày có hàng ngàn bất động sản được giao bán trên Internet, đây chính là nguồn dữ liệu có thể truy cập cũng như thu thập được Nghiên cứu này nhằm chứng minh tính khả thi của việc xây dựng một mô hình định giá bất động sản thông minh nhằm hỗ trợ các chuyên viên thẩm định của các tổ chức tài chính thực thi nhiệm vụ định giá tài sản.
1 GIỚI THIỆU
Hoạt động tín dụng làmột hoạt
động mang lại nhiểu lợi nhuận
cho các tổ chứctàichính như ngân
hàng, tổ chức cho vay tiêu dùng
haycáctiệm cầm đổ Nhưng đây
cũng là hoạt động mang lại rủi ro
lớn và những rủi ro này rất khó
để bù đắp Trước khi chấp nhận
cấp mộtkhoảnvay nào đó, cáctổ
chức tài chính thường thực hiện
chấm điểmtín dụng Khách hàng
có mứctín nhiệm càng thấp thì lãi
suất trên khoản vay của họ càng
lớn, điều này cũng có nghĩa rằng
mức độ rủi ro của khoản vay tỷ lệ
thuận với lợi nhuận mà tổ chức tài
chính cóthể thu được trong tương
lai Để dung hòa giữa lợi nhuận và
rủi ro thì tài sản thế chấp đóng
một vai trò quan trọng trong cam
kết tài chính giữa bên vay và bên
chovay Khi đến kỳtrả nợ, bên vay
không thể thực hiện nghĩa vụ tài
chính của mình thì bên chovay có
thể bán tài sản thế chấp của bên
vay và thu hổi một phần khoản
nợ, hoặc trong trường hợp tối Ưu
cóthể thu hồi được toàn bộ số nợ (bao gồm cả nợ gốc và lãi) Bất động sản là một loại hình tài sản
thế chấp rất phổ biến trong hoạt
độngtín dụng bởi chúng có tính
bất biến về người sở hữu trong quá trình được thếchấp; ngoài ra,
giá trị của bất động sản cũng rất
lớn, đủ khả năng cân đối được với khoảnvay
Hoạt động định giá bất động
sản được dựa trên rất nhiều cơ sở mặc dù Nhà nước đã ban hành mức giá tiêu chuẩn đối với loại hình và vị trí của bất động sản,
tuy nhiên mức giá giao dịch của
bất động sản thường cao hơn rất nhiểu so với giá tiêu chuẩn
này, do đó, giá trị bất động sản thường được định giá dựa trên kinh nghiệm của các nhân viên
thẩm định bất động sản Các nhà
thẩmđịnh giá chuyênnghiệp dựa
vào kinh nghiệm và kiến thức thị
trường địa phương để đưa ra kết luận của riêng mình.Sự thiên lệch khi thẩm định giá bất động sản cũng không phải là việc hi hữu
Những sai lệch trong định giá có
thể được giải thích bằng sựkhông đồng nhất thôngtin giữa hai bản đánh giá hoặc sự khác biệt về
khung nhìn đối với bất động sản Bất động sản thường là tài sản lớn đối với mỗi cá nhân, việc định giá bất động sản mộtcách hợp lý
sẽ giúp cáctổ chức có được một khoản đảm bảo an toàn và cũng giúp người đi vay đề xuất một khoản tiền tương xứng với giá trị tài sản đó Để định giá chính xác một bất động sản, người ta
không chỉ đòi hỏi sự hiểu biết về thị trường bất động sản (có thể
nói đây làmộtthị trường đẩy biến
động) mà còn phải có hiểu biết
sâu sắc vể chính bất động sản đó Kiến thức này thường được nắm
giữ bởi các chuyên gia môi giới bất động sản Nếu các tổ chức
Trang 2TRAO ĐỔI w
tài chính có thể nắm bắtcác kiến
thức này bằng cách sửdụng các
nguồn dữliệu cóthể truy cập mở,
tnì kiến thức này có thể sẽ được
tếp cận dễ dàng Các ngân hàng
co đủ nguón lực để xây dựngmột
hệ thống dữ liệu như vậy sẽ giúp
cac thẩm định viên làm việc trên
rrtột nguồn thông tin chân thực,
knáchquan với các nhận định của
ban thân cũng như các môi giới
bat động sản
Mặt khác, các thẩm định viên
có
sả
thể dự báo xấpxỉ giá bất động
n dựa trên giá trị trung bình
đượctính toán một cách tự động
bằng các thuậttoán học máy trên
nguồn dữ liệu có sẵn, những dữ
liệu này sẽ cung cấp sự hiểu biết
cho mọi ngườivề các yếu tố ảnh
hưởng tới giá bất động sản Mọi
ng ười có thể tập trungvàonhững
yếưtố này để làm căn cứ xác định
giátrị của bấtđộng sản được đem
ra thế chấp
hững địa bàn hành chính có
nguồn tin giao dịch bất độngsản
dàosẽtrởthành một đối tượng
nghiên cứu phù hợp cho bài toán
này
ngu
cũng như đặc điểm của bất động
N
dồi
Chúng ta có thể tìm được
lồn dữ liệu vể giá bất động sản
sản đó trên các trang đãng tin
bấtđộng sản Ngoài ra thông tin
tương quanvề vị trí của bất động
sản đối với cơ sở hạ tầng, tiện ích xung quanh cũng ảnh hưởng tới
giá thành của bấtđộng sản
Một số nghiên cứu cũng như
những nỗ lực để tạo ra những
mô hình định giá bất động sản
sử dụng hướng tiếp cận học máy
Những nghiên cứu xung quanh
định giá nhà ngoại ò ở Boston được coi là một ví dụ điển hình
Những kết quả từ nghiên cứu này được sử dụng làm cơ sở để chúng tôi lựa chọn những thuộc
tính trong bộ dữ liệu của chúng tôi Các tác giả Park, B., & Bae, J.K
(2015)đã khám phá ra sựhiệu quả của mô hình hổi quy tuyến tính,
máy học vector hỗ trợ (Support
Vector Machine -SVM) và phương pháp ước lượng bình phương tối
thiểu Điểm đặc biệt từ những
nghiên cứu này là những đặc
điểm như khoảng cách tới đường
quốc lộ, mật độ dân số, khả năng kinh doanh trong vùng cũng như
tỷ lệ tội phạm đều ảnh hưởng tới
giá nhà
Mục tiêu của nghiên cứu này
nhằm tạoramột mô hình định giá
bất động sản dựa trên dữ liệu có
thể thu thậpđược trên các nguồn
dữ liệu mở dành cho đối tượng
nhà ở tại Hà Nội Dựa trên bộ dữ liệu thu thập được, chúng tôi hy
vọng có thể tạo ra một hệ thống
giúp các thẩm định viên có thêm một còng cụ để đảm bảo tính chính xác về kết quả thẩm định
của mình
2 ĐỊNH NGHĨA BÀI TOÁN VÀ
MÔ TẢ Bộ Dữ LIỆU
Nghiên cứu này nhằm xây dựng
mô hình dự báo giá nhà ở Hà Nội dựa trên một số các thuộc tính được xác định thông qua tin đãng bất động sản trên mạng Internet Với nghiên cứu này, chúng tôi
tập trung vào địa hình nhà thổ
cư, khám phá vai trò của cơ sở hạ tầng thành phố đối với giá nhà Chúng tôi sử dụng phương pháp
hồi quy để xây dựng mô hình
định giá bất động sản Trong bộ
dữ liệu mẫu của chúng tôi chứa những thòng tin chung của các bất động sản cũng nhưng một vài thông số như có khu vui chơi,
có chợ, trường học trong phạm vi
2 km hay không Những thông tin này được chọn vì với khoảng cách
Trang 3□TRAO ĐỔI
này người dùng có thể dễ dàng
di chuyển Các thuật toán được
sửdụng bao gồm: Hồi quytuyến
tính, hổi quỵ Lasso và giải thuật
k-hàng xóm gần nhất
2.1 Dữ liệu
Thị trường bất động sản với loại
hình nhà riêng, không giống như
cácthị trườngtruyềnthống khác,
không có sàn giao dịch, các bên
thường giao dịch thòng qua các
môi giới bất động sản hoặc trực
tiếp trao đổi với nhau để đưa ra
mức giá hợp lý Kết quả là thông
tin của các bất động sản không
tập trung ở bất kỳ nơi nào Tất
cả thông tin của các bất động
sản thường được đăng trên các
website đăng tin giao bán bất
động sản khi chủ sở hữu có nhu
cầu,chúng ta có thể dễ dàng tìm
thấy tin đăng về nhu cầu bán bất
động sản Thòng tin của hơn 10
nghìn bất động sản đã được thu
thập trên trang website dành
riêng cho thị trường nhà thổ cư
tại Hà Nội, chứa thôngtin những
tin đăng từ tháng 6/2021 đến
tháng 12/2021 Tổng số lượng
bản ghi thu được ban đẩu là hơn
30 nghìn bản ghi Những đặc
điểm được thu thập bao gồm:
Diệntích, chiều dài, mặttiền, diện
tích, số tầng, số phòng ngủ, địa
chỉ, độ rộng đường trước nhà, số
lượng phòng tắm, hướng, các đặc
điểm nổi trồi: Nhà haimặt tiền,có
thể kinh doanh được ngoài ra,
chúng tôi còn thuthập các thông
tin khác thông qua địa chỉ như:
Tọa độ địa lý: Vĩ độ (lat), kinh độ
(long), tiện ích khu dân CƯ: Gần
chợ, gấn trường học, bệnh viện,
có khu vui chơi trẻ em Có tất cả
gần 20 thuộc tính được thuthập
(Hình 1)
Dữ liệu thô được lấy từ trang
web trên mạng Internet, điều
này có thể dễ dàng thực hiện
được bằng cách phân tích mã của
Hình 1: Ví dụ thông tin về bất động sản được rao bán trên website
Mhà 3 tằng 1 tỷ 220 triệu gần Bến xe Yên Nghía - Hà Đòng-rè nhất Hà Nội
3m Diện tích: 30 m Giá: 1.22 tv
Hôm nay
Nhà xây 3 tầng có 3 ngù và 2wc Diện tích đất 30m *Hoàn thiện nôi thất đep như hình chì mang đồ
về ồ * Nội thất - Cầu thang gỗ tự nhiên - Cửa thông phòng gỗ Tù bép gồ tự nhiên sang trong - Cửa nhõm chát lư « xem chi tiết »
Đườna Biên Giana Phướna Biên Giana Quân Há Đóng Hà Nôi
Hình 2: Tỷ lệ % giá trị khuyết thiếu của các thuộc tính
Độ rộng đường ■■■■■■■■■■■■■■■■■ 41
Số nhà vệ sinh MBHMHBMMH 24 Mặt tiền ■■■■■■■■ 20.5
Số phòng ngủ ■■■■■■■■MI 20
Số tầng BMIMBI 13.8 Giá/m2 M 3.8 Giá ■ 2.6 Diện tích ■ 1.2 Gẩn trụ sở ủy ban phường/quận 1 0.5
Gẩn trường học 1 0.5 Gần bệnh viện 1 0.5 Gần chợ 1 0-5 Gần khu vui chơi 1 0‘5 Long 1 0-5 Lat 1 05
0 20 40 60 80 100 120
ngôn ngữ đánh dấu siêu văn bản
(HyperTex Markup Language -HTML)của các tinđăng bất động sản, tọa độ lat, long của bất động sản được lấy thông qua Google
API, ngoài ra các thông tin về cơ
sở hạ tầng cũng được lấy qua Google API như khoảng cách tới bệnh viện, trường học, khu vui
chơi gần nhất
2.2 Xử lý dữ liệu khuyết thiếu
Vì dữ liệu của chúng tôi có được
từ các tin đăng trên Internet, do
đó có rất nhiều thông tin bị khuyết thiếu Cácwebsiteđã để sẵn một
số đặc trưng mà người mua cần biết về căn nhà Tất nhiên, không
phải tất cả những đặc trưng này đều cẩn thiết cho mô hình của
chúng tôi Hình 2 biểu diễn số
lượng những khuyết thiếu của
mỗi đặc trưng Một cách trựcgiác,
những đặc trưng đều ảnh hưởng
tới giá trị dự báo của căn nhà, ví
dụ mộtngôi nhà có số tầng nhiểu hơn thì sẽ có giá trị cao hơn một ngôi nhà tương tự có số tầng thấp hơn
Thuật toán chúng tòi lựa chọn
không được áp dụng trên dữ liệu khuyết thiếu Cả hai phương pháp hồi quy tuyến tính và k-hàng xóm
gần nhất đểu cẩn phải có đầy đủ
thông tin của các đặc trưng được đưa vào mô hình Một cách đơn giản có thể thay thế giá trị khuyết thiếu bằng 0 hoặc giá trị trung
bình, việc này giúp mò hình hoạt
động nhưng cũng có thể khiến tạo thêm nhiễu dữ liệu Chúng
tôi không mong muốn xóa bỏcác
đặc trưng có chứa giá trị khuyết thiếu ra khỏi mô hình bởi nó sê ảnh hưởng tới sự giàu thông tin của bộdữliệu cũng như khả năng
dựđoán
Trang 4Nghiên cứu quyết định sử dụng
3 hướng tiếp cận để xử lý với dữ
liệu khuyết thiếu đối với những
thuộc tính nhận giá trị số thực
như độ rộng đường, mặt tiền, số
tầng: Loại bỏ những mẫu chứa dữ
liệu khuyết thiếu, dự đoán giá trị
khuyết thiếu bằng phương pháp
cực đại kỳ vọng (Expectation
Maximum - EM) và dự đoán giá
trị khuyết thiếu bằnggiá trị trung
bình của các đặc trưng Đối với
những thuộc tính như: Có thang
máy, hai mặt tiền thì chúng tôi sẽ
coi như nếu khách hàng không
nhắc đến thuộc tính này thì nhà
của họ không có các đặc điểm
Ỉrên và những đặc trưng này nhận
|iá trị mặc định là 0 Với những
lản ghi không có thông tin lat,
long thì chúng tòi sẽ tiến hành
xóa bỏnhữngbản ghi này
Phương pháp đơn giản nhất là
thay thếgiá trị khuyết thiếu bằng
giá trị trung bình của mỗi đặc
trưng Mặc dù phương pháp này
g úp chúng tôi giữđược rất nhiều
bản ghi, nhưng có thể tạo ra hiệu
ứng không cân bằng dữ liệu.Điều
nắy có thể gây ảnh hưởng tới sức
manh dự báo của mô hình Cuối
cùng, chúng tôi quyết định thử
ƯóỊc lượng giá trị khuyết thiếu
thèo hướng EM Mỗi giátrị khuyết
thiếu được gán một giá trị mặc
địhh là giá trị trung bình của các
đặc trưng Sau đó chúng tôi lặp
lại việc thử huấn luyện một mô
hình xác suất và ước lượng giá trị
khdyết thiếu tới khi thấy nó hội
tụ Trong khi cài đặt phương pháp
này, chúng tôi sử dụng mô hình
MultinomialNB trong thư viện
Scikit-learn để ước lượng giá trị
khuyết thiếu Mỗiđặc trưng chứa
dữ liệu khuyết thiếu,một mô hình
được xây dựng để sử dụng các
đặc trưng còn lạiđể dựbáo giá trị
khuyết thiếu của đặc trưng này
Sau đó, chúng tôi sử dụng mô
hình này để ước lượng lại giá trị khuyết thiếu
Lưu ý rằng các hạn chế chính từ
mô hình này phát sinh từ các giả
định của thuật toán Naive Bayes
Để phương pháp này có hiệu quả,
giả định về tính độc lập có điểu kiện phải được duy trì và các đặc trưng khác phải đủ phong phúđể
dự đoán giátrị của các đặc trưng khuyết thiếu
3 XÂY DỰNG MÔ HÌNH
Do có một lượng lớn dữ liệu khuyết thiếu,chúng tôi không chỉ
xem xét cả hiệu suất thuật toán
mà còn cả các phương pháp xử
lý dữ liệu khuyết thiếu Mỗithuật toán được chạy với mỗi phương pháp để xửlýdữliệu khuyết thiếu
Các thuật toánđãđược tối Ưu hóa
để có kết quảtốt hơn trên các tập
huấn luyện và một tập kiểm tra
đã được sử dụng để đánh giá cuối
cùng Để chọn phương pháp tốt
nhất xử lý dữ liệu bị thiếu và điều
chỉnh các siêu tham số, xác thực
chéo 5 lần đã được sử dụng Khi việc nhập dữliệu bịthiếuyêu cầu
thống kê từdữ liệu (EM và truyền
dữ liệu trung bình), mô hình chỉ được tạotrên dữ liệu huấn luyện
và sau đó được sử dụng để đưa ra
các giá trị của dữ liệu thử nghiệm
3.1 Lựa chọn đặc trưng
Các đặc trưng được chia làm hai nhóm lớn, nhóm định tính và nhóm định lượng Những biến
định tính như: Hướng nhà, hướng ban công, có thang máy, có hai mặt tiền có thể sử dụng các giá trị nguyên để mã hóa Với những
đặc trưng định tính nhận nhiểu
giá trị, chúng tôi sửdụng kỹ thuật
One-hot encoding sẽtốt hơn cho việc xây dựng mô hình vì sẽ tránh
được việc vô tình tạo ra các mối tương quan tuyến tính giữa các
thuộc tính
Lựa chọn đặc trưng đã được
TRAO ĐÓI 1«
thực hiệntrong cácthuật toán hổi quytuyến tính hay hồi quy Lasso
Điều này cho phép những thuộc
tính không ảnh hưởng tới mô
hình được loại bỏtrong quá trình xây dựng mô hình
3.2 Lựa chọn thuật toán
Dưới đây là mô tả ngắn gọn
vể các thuật toán được xem xét
Chúng được chọn từ một loạt các thuật toán vì trong quá trình thử
nghiệm ban đầu, chúng có kết quả tốt nhất và cho thấy nhiều
hứa hẹn
Phần này sẽ mô tả những thuật toán được xem xét để xây dựng
mô hình, những thuật toán này
được lựa chọnvìtính hiệu quảcủa
chúng đối với những bài toán dự báotrên tậpdữ liệucó cấu trúc
Hổi quy tuyến tính
Hồi quy tuyến tính là một phương pháp đơn giản và kinh điển, thuật toán sẽ xây dựng một
đường/siêu phẳng trong không
gian của cácđặctrưng nhằm biểu diễn mối liên hệ giữa giá trị căn nhà và các đặc trưng liên quan dưới dạng một biểu thức tuyến tính:f(x')—P0+S”1Pixi!
Trong đó: m là số lượng đặc trưng được đưa vào mô hình, f(x’)
là giá nhà dự báo dành cho căn nhà có các đặc điểm tài chính được
biểu diễn bằngvector xi=(xj, ,x$
có độ dài m tương ứng với m đặc
trưng,p là trọng số của đặc trưng thứ i trong mô hình, xị biểu diễn đặc trưng thứ i của vector x> Có
nhiều hướng tiếp cận khác nhau
để tìm giá trị của các trọng số Pr Cách thức cài đặt trong thư viện Scikit-learn sửdụng phươngpháp bình phương tối thiểu sao cho bộ trọng số p tìm được làm cho hàm
số sau đạtgiá trị tối thiểu
Err(P)=S.:i(y.- s^x’)2 Trong đó, yj là giá trị của căn nhà thứ j trong bộ dữ liệu và
Trang 5aTRAO ĐỔI
xJ=(xị, xjj là vector đặc trưng
của căn nhà thứ j trong bộdữliệu,
n là tổng sốquan sát
Ngoài ra, sử dụng phương
pháp suy giảm độ dốc (Gradient
descent)cũng là một hướng tiếp
cận để tìm ra các trọng số này
Hồi quỵ tuyến tính được chúng
tỏi quan tâm không chỉ vì nó là
một phương pháp phổ biến mà
còn bởi tính giải thích trực quan
của mô hình Dựa vào độ lớn của
các trọng số, chúng ta có thể biết
đặc trưng nào ảnh hưởng nhiều
nhất đến giá của một ngôi nhà và
liệu có mối tương quan thuận hay
nghịch không Đây cũng là mục
tiêu của nghiêncứu này
Hổi quy Lasso
Hổi quy Lasso về bản chất
tương tự như hổi quy tuyến tính
nhưng có một số cải tiến Đó
là đưa thêm một số ràng buộc
vào mò hình nhằm ngăn chặn
hiện tượng không mong muốn
(Overfitting) của mô hình Trong
hồi quyLasso,giá trị các trọng số bị
giới hạn giá trị quamột biểu thức
phạt.Điểu nàybuộc các đặc trưng
ít quan trọng hơn phải có trọng
số nhỏ hơn hoặc thậm chí bằng
0 và ngầm loại bỏ các đặc trưng
vô dụng trong quá trình này Bởi
ngay cảcác nhà môi giới bất động
sản cũng có rất nhiều ý kiến trái
chiểu vể ảnh hưởng của các đặc
trưngtới giá thành của bất động
sản Dođó,trong một miến ýkiến
phức tạp nhưvậy, thuật toán này
sẽ giúp chúng tôi loại bỏ các đặc
trưngkhông liên quan
Trọng số của các đặc trưng sẽ là
nghiệm của bài toán tối Ưu sau:
min(ri(/-P0-ZiT1xJpimZiT1|Pi|)
K-hàng xóm gân nhất (KNN)
KNN có cách tiếp cận khác Giả
định cốt lõi của hướng tiếp cận
này là các mẫu vector có đặc
trưng giống nhau thì sẽ cho kết
Bảng 1: % sai sô trung bình tuyệt đối của phương pháp hồi quy Lasso khi sử dụng các phương pháp xử lý giá trị khuyết thiếu khác nhau và hiệu chỉnh tham sô
Hình 3: Tỷ lệ % sai sô trung bình của thuật toán hồi quy tuyên tính
Phươnq pháp xử lý dữ liệu khuyết thiếu Ầ % sai số tuyệt đỗi
35%
30%
25%
20%
15%
10%
5%
0%
quả tương tự Các vùng lân cận của một điểm dữ liệu sẽ được
dùng làm căn cứ đánh giá chứ
không phải các điểm ở xa Trong một tácvụ hói quy, khi các lân cận
đã được định vị, giá trị trung bình
của chúng(hoặc giá trị trungbình
có trọng số) được lấy để gán cho
điểm truy vấn Với bài toán định
giá bất động sản thì có thể nói
thuật toán này cũng là một ứng
cử viên tốtvì giá của các bấtđộng sản tương đương
KNN có một sự phụ thuộc vào
bộ dữ liệu.Có nghĩa là khi chúng
ta xử lý dữ liệu khuyết thiếu, nếu
vô tình tạo ra một sự thiên lệch
nàođó thì sẽkhiến cho chấtlượng
mô hình bị kém đi vì những bất động sản có thể cóđặcđiểm khác
Trang 6Hình 4: % sai sô trung bình của mô hình xây dựng bằng thuật toán KNN
kết hợp với các cách xử lý dữ liệu khuyết thiếu
60.00
10.00
0.00
1 5 10 20 30 40 50 60 80 90 100
k
nhau nhưng lại vò tình được kéo
lại gần nhau Để tính khoảng cách
giữa các quan sát, chúng tôi sử
dụng khoảng cách Euclid:
d(a,b)=V(S"1|ai-b112)
Trong đó: a = (a,, a2, ,am) và b
= (b^bj, bm) là 2 vector có độ
dài m
4 KẾT QUẢ THỰC NGHIỆM
4.1 Phương pháp hồi quy
tuyến tính
Hình 3sosánh hiệu quả của mô
hình hôiquy tuyến tính thông qua
ba bộ dữ liệu sau khi đã xử lý dữ
liệu khuyết thiếu Kết quả dự báo
khi loại bỏ hết các dữ liệu khuyết
thiếu đang là tốt nhất, với giá trị
trung bình tỷ lệ sai số tuyệt đối
là 21,6%
4.2 Hổi quy Lasso
Với hổi quỵ Lasso, với các
phương pháp xử lý giá trị khuyết
thếu chúng tôi cũng tối ưu giá
trị tham số.Tuy nhiên, hiệu suất
4.3 KNN
Giá trị k=5 cho kết quả tối ưu như trong Hình 4 Một lần nữa kết
quả cho thấy, việc xóa bỏ hếtcác quan sát chứa giá trị khuyết thiếu
cho kết quảtốt hơn (Hình 4)
4.4 Các đặc trừng được lựa chọn
Phương pháp hồi quy tuyến
tính và hói quy Lasso đã xử lý các đặc trưng đượcthuthậptrực tiếp
từ trang webvà các thòngtin liên quan tớicơsở hạ tầng qua Google API, khi phân tích mò hình, chúng tôi nhận thấy rằng, các thông số
liên quan tới cơ sở hạ táng có
trọng số rất thấp trong mô hình
Tuy nhiên, trọng số của hai tham
số lat, long lại cóđốitrọng rất lớn,
có thể vì ý nghĩa giải thích của các tham số đó đã được hàm chứa trong các tham số tọa độ
5 KẾT LUẬN
Nghiên cứu này của chúng tôi
đã để xuấtphương pháp giúp các
tổ chứctín dụng thu thập dữ liệu
về giá của bất động sản trên thị
trường theo thời gian thực, từ đó
có mộtnguồn dữliệu dói dào làm
căn cứkhách quan để thẩm định
giá trị của các bất động sản dựa trên thòng tin của các bất động
sản tương đồng Từ đó, hạn chế được những sai lẩm hay sự thiếu minh bạch trong quá trình thẩm địnhtài sản thế chấp, qua đó, các
tổ chức tín dụng cũng gia tăng năng suất và tỷ lệ cấp phát những
khoản vay an toàn
Hai phương pháp hổi quy tuyến tínhvà hổi quy Lassođược sử dụng trongnghiên cứu đã giúp chúng tôi tìm rađược mức độ quantrọngcủa các đặctrưng tới giá trị của mộtcăn nhà Các đặctrưng liên quan tới cơ
sở hạ tầng không chứngminh được vai tròcủa nó đối với giátrị của một căn nhà Những đặc trưng có giá trị khuyết thiếu nhiều không có ý
nghĩa trong việc xây dựng mò hình
Các đặc trưng ảnh hưởng nhiều nhất tới mô hình dự báogiátrị của căn nhà bao gồm: Diện tích, mặt
tiền, vị trí của căn nhà (tọa độ lat, long), sốlượng tẩng, độ rộng đường
trước nhà Mô hình được chúng tôi
xây dựng cósaisố trungbình thấp
nhấtkhoảng 20% với phương pháp KNN, đây không phải một kết
quả đượcchúngtòi kỳvọng nhưng nghiên cứu này cũng là một minh chứng cho tính khả thi của việc xây
dựng hệ thống hỗ trợ thẩm định
giá tựđộng dựa trên cáckỹthuật trí tuệ nhântạo, hỗ trợnhân viênthẩm địnhchọn lọc và đánh giá thông tin của bất động sản trong quá trình
thẩmđịnh.B
dường như chỉ bị ảnh hưởng nhẹ
Bảng 1 mộtlần nữa cho thấy rằng
việc loạibỏ dữ liệu bịthiếu là hiệu
quả nhất, phần trăm sai số tuyệt
đối trung bình tốt nhất là 6% Giá
trị bằng 100 đang cho kểt quả
tốtnhất
TÀI LIÊU THAM KHẢO:
I.OIinsky, Alan, Shaw Chen, and Lisa Harlow."The comparative efficacy of imputation methods for missing data in structural equation modeling" European Journal of Operational Research 151.1 (2003): 53-79
2 Park, B., & Bae, J.K (2015) Using machine learning algorithms for housing price prediction: The case ofFairfax County, Virginia housing data Expert Systems with Applications,
42(6), 2928 - 2934 [3] Yu, C.Y., Lam, K.c & Runeson, G (2008) SVM and entropy based decision support system for property valuation Proc., 11th Eleventh East Asia-Pacific Conf, on Structural Engine & Construction.