1. Trang chủ
  2. » Tất cả

ĐỀ TÀI DỰ ÁN CUỐI KỲ DỰ ĐOÁN GIÁ TIỀN THUÊ NHÀ Ở ẤN ĐỘ PHỤ THUỘC NHIỀU NHẤT VÀO YẾU TỐ NÀO (House Rent Prediction In India).pdf

24 19 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Dự án cuối kỳ dự đoán giá tiền thuê nhà ở Ấn Độ phụ thuộc nhiều nhất vào yếu tố nào (House Rent Prediction In India)
Tác giả Nhóm 11
Người hướng dẫn TS. Võ Thành Đức
Trường học Đại học Kinh tế Thành phố Hồ Chí Minh
Chuyên ngành Khoa học dữ liệu
Thể loại Dự án cuối kỳ
Năm xuất bản 2022
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 24
Dung lượng 1,31 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

ĐẠI HỌC KINH TẾ THÀNH PHỐ HỒ CHÍ MINH KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH    ĐỀ TÀI DỰ ÁN CUỐI KỲ DỰ ĐOÁN GIÁ TIỀN THUÊ NHÀ Ở ẤN ĐỘ PHỤ THUỘC NHIỀU NHẤT VÀO YẾU TỐ NÀO (House Rent Prediction In Ind[.]

Trang 1

ĐẠI HỌC KINH TẾ THÀNH PHỐ HỒ CHÍ MINH

KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH

  

ĐỀ TÀI DỰ ÁN CUỐI KỲ

DỰ ĐOÁN GIÁ TIỀN THUÊ NHÀ Ở ẤN ĐỘ PHỤ THUỘC NHIỀU NHẤT VÀO YẾU TỐ NÀO

(House Rent Prediction In India)

Giảng viên hướng dẫn : TS Võ Thành Đức

Môn học : Khoa học dữ liệu

Mã HP : 22C1INF50905941

Khóa/Hệ : K47/Đại học chính quy

Thực hiện : Nhóm 11 Nguyễn Phan Huệ Anh - 31211024693

Huỳnh Ngọc Kiều Giang - 31211023965 Nguyễn Thị Thúy Kiều - 31211021825 Nguyễn Trà My - 31211026010

Bùi Hoàng Nhung - 31211023970

Thành phố Hồ Chí Minh, tháng 10 năm 2022

Trang 2

MỤC LỤC

2 Bức tranh tổng quát về bộ dữ liệu và lập luận tầm quan trọng của việc tìm ra một ý

Trang 3

IV ĐÁNH GIÁ VÀ LỰA CHỌN MÔ HÌNH 19

1 Mục đích ý nghĩa của việc triển khai mô hình trong lĩnh vực cụ thể 20

2 Phân tích đánh giá hiệu quả kinh tế khi triển khai mô hình 20

VI ĐÁNH GIÁ ĐÓNG GÓP CỦA CÁC THÀNH VIÊN THAM GIA DỰ ÁN 22

Trang 4

I GIỚI THIỆU

1 Giới thiệu về đề tài

Tiền thuê nhà là một thỏa thuận trong đó một khoản thanh toán được thực hiện để sử dụng tạm thời hàng hóa, dịch vụ hoặc tài sản thuộc sở hữu của người khác Một thị trường nhà cho thuê hoạt động hiệu quả sẽ đem lại nhiều lựa chọn nhà ở với mức giá phải chăng và đáp ứng được nhu cầu của người thuê nhà

Có nhiều yếu tố tác động đến tiền thuê nhà như: vị trí, kích thước, tình trạng nội thất, số phòng… Nhóm chúng em đã lựa chọn sử dụng bộ dữ liệu “House Rent Prediction In India” phân tích, xây dựng mô hình, xử lý các dữ liệu để kiểm chứng cơ chế tác động của các nhân tố trên cũng như sự phù hợp của các nhân tố đó đối với các vấn đề về chất lượng và dự đoán tiền thuê của căn nhà

2 Bức tranh tổng quát về bộ dữ liệu và lập luận tầm quan trọng của việc tìm ra một

ý tưởng mới trong dữ liệu nghiên cứu

Từ dữ liệu 4747 ngôi nhà/căn hộ có sẵn, nhóm sẽ sử dụng mô hình dự đoán không giám sát vì không biết trước được số nhóm Ý tưởng cơ bản là chúng ta muốn tìm các nhóm đối tượng, trong đó các đối tượng trong mỗi nhóm tương tự nhau, nhưng các đối tượng trong các nhóm khác nhau thì không quá giống nhau Không những thế, chúng ta cũng có thể xác định các quan sát bất thường khác biệt với các cụm khác

Khi chúng ta tìm ra một ý tưởng mới thì từ ý tưởng đó chúng ta lại rút ra được nhiều nhận định và ý tưởng khác, đôi khi đó cũng là cơ sở để chúng ta đưa ra các giả định và xây dựng mô hình

Từ đó, nhóm sẽ tiến hành phân tích mô hình phù hợp để tìm ra câu trả lời cho vấn đế

nghiên cứu: “Giá tiền thuê nhà ở Ấn Độ phụ thuộc nhiều nhất vào yếu tố nào?”

Trang 5

Quy trình khai thác dữ liệu

3 Kiến thức chuyên môn

Trang 6

+ Phân tích dự đoán giúp chúng ta hiểu các sự kiện có thể xảy ra trong tương lai bằng cách phân tích quá khứ

3.3 Phương pháp phân cụm

 Phân cụm phân cấp (Hierarchical clustering)

Xây dựng một cây phân cấp cho dữ liệu cần gom cụm dựa trên:

- Ma trận khoảng cách giữa các phần tử (similarity matrix hoặc dissimilarity matrix)

- Đo khoảng cách giữa các cụm (single link, complete link…)

- Phương pháp này không cần xác định trước số cụm nhưng cần xác định điều kiện dừng

- Các phương pháp điển hình: Diana, Agnes

 Nhận xét về phân cụm phân cấp:

+ Giải thuật đơn giản;

+ Kết quả dễ hiểu;

+ Không cần tham số đầu vào;

+ Không quay lui được;

+ Tốc độ chậm, không thích hợp trên dữ liệu lớn;

+ Không xử lý được trên dữ liệu bị thiếu, nhạy cảm với nhiễu;

+ Hạn chế trên dữ liệu có các cụm lớn và có hình dáng không lồi

 Phân cụm phân hoạch (Partitioning Clustering)

Phân tập dữ liệu có n phần tử cho trước thành k tập con (k<=n), mỗi tập con biểu diễn một cụm Các cụm hình thành trên cơ sở tối ưu hóa giá trị hàm độ đo tương tự (độ đo phân cụm) sao cho:

- Mỗi đối tượng thuộc duy nhất 1 cụm, các phần tử trong cụm có sự tương tự nhau

- Mỗi cụm có ít nhất 1 phần tử

Trang 7

Thuật toán điển hình: K-means, K-mediods, Fuzzy C-means

- Thuật toán K - Means

+ Thuộc nhóm thuật toán phân cụm dựa trên phân hoạch

+ Tư tưởng chính: Ta xem mỗi đối tượng trong tập dữ liệu là một điểm trong không gian d chiều (với d là số lượng thuộc tính của đối tượng)

+ Quy trình thực hiện:

Bước 1: Chọn k điểm bất kỳ làm các trung tâm ban đầu của k cụm

Bước 2: Phân mỗi điểm dữ liệu vào cụm có trung tâm gần nó nhất Nếu các điểm dữ liệu ở từng cụm vừa được phân chia không thay đổi so với kết quả của lần phân chia trước nó thì ta dừng thuật toán

Bước 3: Cập nhật lại trung tâm cho từng cụm bằng cách lấy trung bình cộng của tất các các điểm dữ liệu đã được gán vào cụm đó sau khi phân chia ở bước 2

Bước 4: Quay lại bước 2

+ Cần biết trước số lượng cụm k;

+ Nhạy cảm với nhiễu và ngoại biên (outliers);

+ Không phù hợp với phân bố dữ liệu dạng không lồi (non-convex);

+ Kết quả (nghiệm) bài toán phụ thuộc vào cách khởi tạo các trung tâm cụm ban đầu

- Thuật toán Fuzzy C - Means

+ Thuộc nhóm thuật toán phân cụm dựa trên phân hoạch

+ Là biến thể của K-mean nên có cùng tư tưởng với K-means:

 FCM được đề xuất bởi Bezdek năm 1974

Trang 8

 FCM là phân cụm dữ liệu mờ tức là một đối tượng dữ liệu có thể được phân vào

+ Là thuật toán gom cụm mềm, khắc phục được vấn đề các cụm chồng lên nhau trong

dữ liệu có kích thước lớn, nhiều chiều

+ Phụ thuộc vào tham số khởi tạo: tham số mờ m; ma trận độ đo mức độ thành viên + Vẫn có thể gặp vấn đề cực trị địa phương

+ Nhạy cảm với nhiễu và ngoại biên

Trang 9

II THU THẬP VÀ LÀM SẠCH DỮ LIỆU

1 Mô tả tổng quát dữ liệu

House Rent Prediction có thông tin về gần 4747 ngôi nhà/căn hộ có sẵn cho thuê với

các thông số khác nhau như BHK, Rent, Size, Floor, Area Type, Area Locality, City,

Furnishing Status, Tenant Preferred, Bathroom và Point of Contact

2 Trình bày sơ lược các thuộc tính

3 Size Kích thước của nhà/căn hộ tính bằng m2 numeric

4 Floor Nhà/căn hộ nằm ở tầng nào và tổng số

5 Area Type

Kích thước của nhà/căn hộ được tính trên diện tích siêu hoặc diện tích trải thảm hoặc diện tích xây dựng

categorical

7 City Thành phố nhà/căn hộ trực thuộc categorical

8 Furnishing Status Tình trạng nội thất của nhà/căn hộ categorical

9 Tenant Preferred Người thuê được ưu tiên categorical

Trang 10

Các bước làm sạch dữ liệu (data cleaning) gồm:

- Tóm tắt hóa dữ liệu

- Xử lý dữ liệu bị thiếu (missing data)

- Xóa các dữ liệu định lượng (noisy data)

 Xây dựng mô hình xử lý dữ liệu Preprocess:

 Kết quả thu được

Sau khi xử lý dữ liệu thì dữ liệu vẫn giữ số lượng mẫu như ban đầu là 4747 Điều này cho

ta thấy, không có dữ liệu nào bị thiếu Từ đó, ta lưu lại bộ dữ liệu sau khi xử lý và tiến hành chạy phân tích các kết quả nghiên cứu

Trang 11

III KIỂM ĐỊNH MÔ HÌNH

1 Mô hình dự đoán

Nhóm lựa chọn phương pháp phân cụm và phương pháp thống kê để tiến hành dự đoán

từ đó chọn ra mô hình phù hợp và đưa ra kết quả nghiên cứu tốt nhất

2.1 Phân cụm phân cấp (Hierarchical clustering)

- Là phương pháp mà ta sẽ phân cụm cho đến khi nào đạt được kết quả tốt nhất

- Ta chọn chia dữ liệu lần lượt thành các cụm Trong đó, 2 cụm là số cụm tốt nhất ta có thể phân chia

Trang 12

2.2 Phương pháp K-Means

Ta thấy kết quả sau khi chạy ra thì ở 2 cụm có chỉ số Shihouette cao nhất (0,319) so với các trường hợp cụm 3, 4, 5, 6, 7 và 8 , vì vậy 2 cụm là số cụm tốt nhất ta có thể phân chia

Trang 13

là các gia đình đông con, họ phải chấp nhận trả 55863.06284 (đvt) để thuê căn 3 phòng ngủ, sảnh và bếp, một mức giá không rẻ đối với các cá nhân lao động có thu nhập thấp

3.1.2 Yếu tố Kích thước - “Size”

Theo bộ dữ liệu, diện tích các căn nhà sẽ dao động từ 250 m2 - 1000 m2 và 1000 m2 –

2000 m2, kích thước này khá đa dạng, phù hợp cho từng đối tượng sử dụng Từ căn mini tiêu chuẩn đến trung bình vừa phải và thậm chí là căn hộ cao cấp có diện tích lớn

Trang 14

Dùng hàm AVERAGEIF tính toán kết quả, ta nhận thấy giá thuê trung bình của các căn nhà có diện tích từ 250m2 đến 100m2 sẽ dao động từ 8731 (đvt) đến 26550 (đvt) và các căn hộ

có diện tích rộng hơn, cụ thể là dưới 2000m2 sẽ có mức giá trong khoảng 21000 (đvt) đến 71515 (đvt) Người thuê dựa theo thu nhập cá nhân để quyết định căn nhà phù hợp với mình

3.1.3 Yếu tố Tầng nhà - “Floor”

Số lượng tầng sẽ phân loại nơi bạn thuê thành nhà hay căn hộ (căn hộ nằm ở tầng nào và tổng số tầng là bao nhiêu), trong bộ dữ liệu có đến 12 loại tầng phân ra từ căn hộ và nhà, cụ thể là: tầng 1/2, trên 3, trên 4, tầng 2/2, trên 4, tầng 3/5, tầng 4/5 và thậm chí là tầng 23/34

Trang 15

Sau khi dùng hàm AVERAGEIF tính toán ra kết quả ta thấy giá thuê nhà bình quân của tầng 1 out of 2 có giá thấp nhất là 14446.70185 (đvt) và tầng Lower Basement out of 2 có giá thuê cao nhất là 97600 (đvt)

3.1.4 Yếu tố Loại diện tích - “Area Type”

Theo bộ dữ liệu, có 2 loại diện tích là: diện tích trải thảm (Carpet Area) và diện tích siêu (Super Area)

Trang 16

Bằng hàm AVERAGEIF, sau khi tính toán, nhóm nghiên cứu nhận thấy giá thuê nhà bình quân của loại diện tích “Super Area” (18673,39657 đvt) là cao hơn rất nhiều so với loại diện tích “Carpet Area” (52385,8973 đvt)

3.1.5 Yếu tố Khu vực vị trí - “Area Locality”

Theo bộ dữ liệu, có 17 khu vực vị trí là: Almasguda; Bandam Kommu; Bandel; Dumdum Park; Gachibowli; Godavari Homes, Quthbullapur; Himayath Nagar, NH 7; Malancha; Manikonda, Hyderabad; Old Alwal; Palm Avenue Kolkata, Ballygunge; Phool Bagan, Kankurgachi; Raj Bhawan Road; Salt Lake City Sector 2; South Dum Dum; Suchitra Circle và Thakurpukur

Trang 17

Bằng hàm AVERAGEIF, sau khi tính toán, nhóm nghiên cứu nhận thấy giá thuê nhà bình quân của khu vực vị trí “Gachibowli” (43879,31034 đvt) là cao nhất; giá thuê nhà bình quân của khu vực vị trí “Thakurpukur” (6500 đvt) là thấp nhất

3.1.6 Yếu tố Thành phố - “City”

Theo bộ dữ liệu, có 2 loại thành phố là: thành phố “Hyderabad” và thành phố “Kolkata”

Bằng hàm AVERAGEIF, sau khi tính toán, nhóm nghiên cứu nhận thấy giá thuê nhà bình quân của thành phố “Hyderabad” (20555,04839 đvt) là cao gần gấp đôi so với thành phố

“Kolkata” (11645,17366 đvt)

3.1.7 Yếu tố Tình trạng nội thất - “Furnishing Status”

Theo bộ dữ liệu, có 3 tình trạng nội thất đó là: Furnished (đã được trang bị đầy đủ), Furnished (trang bị một nửa) và Unfurnished (chưa trang bị)

Semi-Dùng hàm AVERAGEIF ta tính ra kết quả được rằng giá thuê nhà khi có trang bị Furnished (56110.30588 đvt) là cao hơn rất nhiều so với giá thuê nhà khi chưa được trang bị Unfurnished (22461.63581 đvt) Còn về giá thuê nhà khi đã được trang bị một nửa thì ở tầm trung (thấp hơn giá đã có trang bị đầy đủ nhưng cao hơn giá chưa có trang bị) chính xác là 38718.81075 (đvt)

Trang 18

3.1.8 Yếu tố Người thuê ưu tiên - “Tenant Preferred”

Theo bộ dữ liệu, có 3 loại người thuê ưu tiên đó là: Bachelors (cử nhân), Bachelors/Family (cử nhân/gia đình), Family (gia đình)

Dùng hàm AVERAGEIF ta tính ra kết quả được rằng giá thuê nhà dành cho người thuê

ưu tiên là cử nhân Bachelors có giá cao hơn một ít so với cử nhân/gia đình (42143.79398 đvt

so với 31210.79268 đvt) và cao hơn rất nhiều so với người thuê là gia đình (50020.3411 đvt)

Trang 19

3.1.10 Yếu tố Đầu mối liên hệ - “Point of Contact”

Theo bộ dữ liệu, có 2 hình thức liên hệ: liên hệ môi giới (Contact Agent) và liên hệ chủ nhà (Contact Owner)

Bằng hàm AVERAGEIF, sau khi tính toán, nhóm nghiên cứu nhận thấy giá thuê nhà bình quân của hình thức “Contact Agent” (73481,16 đvt) là cao hơn rất nhiều so với hình thức

“Contact Owner” (16704,21 đvt)

3.2 Yếu tố nào khiến giá nhà chênh lệch nhiều hơn?

Dựa vào giá thuê nhà bình quân vừa tính toán được ở mục 3.1, nhóm nghiên cứu nhận thấy Yếu tố Tầng - “Floor” khiến giá nhà ở Ấn Độ chênh lệch nhiều nhất Cụ thể

là ngôi nhà/căn hộ ở tầng trệt trên tổng số 2 tầng (Lower Basement out of 2) có giá thuê cao nhất là 97600 đvt và cao gấp khoảng 7 lần so với ngôi nhà/căn hộ ở tầng 1 trên tổng số 2 tầng (1 out of 2) có giá thấp nhất là 14446.70185 (đvt) Từ đó, có thể dự đoán, giá thuê nhà ở Ấn Độ phụ thuộc nhiều nhất vào việc ngôi nhà/căn hộ đó ở tầng mấy trên tổng số tầng

Trang 20

IV ĐÁNH GIÁ VÀ LỰA CHỌN MÔ HÌNH

1 Đánh giá mô hình

Dựa trên kết quả của 2 mô hình, nhóm nghiên cứu đưa ra đánh giá như sau:

- Mô hình xây dựng bằng phương pháp phân cụm: Mức độ chồng chéo giữa các phân cụm (overlay) Các phân cụm gần nhau hay có nghĩa là có mối tương quan cao trong lợi nhuận, thường chia sẻ chung một số yếu tố rủi ro

- Mô hình xây dựng bằng phương pháp thống kê: Mô hình đã đạt được mục tiêu mà nhóm đã đề ra là dự đoán giá tiền thuê nhà ở Ấn Độ phụ thuộc nhiều nhất vào yếu tố nào

2 Lựa chọn mô hình

Từ những đánh giá trên, nhóm nghiên cứu nhận thấy, mô hình xây dựng bằng phương pháp phân cụm chưa phù hợp với đề tài nghiên cứu Song, mô hình xây dựng bằng phương pháp thống kê đã giúp nhóm đạt được mục tiêu đề ra, do đó, mô hình này phù hợp với đề tài nhóm đã chọn

Do đó, nhóm lựa chọn mô hình xây dựng bằng phương pháp thống kê

Trang 21

V TRIỂN KHAI MÔ HÌNH

1 Mục đích ý nghĩa của việc triển khai mô hình trong lĩnh vực cụ thể

Các quốc gia trên thế giới, nhất là các nước đang phát triển, lĩnh vực kinh tế là một lĩnh vực trọng yếu và cũng là nhân tố quan trọng để thúc đẩy đất nước, giúp các quốc gia khẳng định được vị thế của mình Vì lý do đó, tất cả người dân trên cả nước sẽ đổ dồn

và tập trung vào những khu vực có tiềm năng phát triển kinh tế lớn, một dẫn chứng như thành phố Hồ Chí Minh của nước ta Rất nhiều người dân di cư vào đây để sinh sống và lập nghiệp, hàng chục chuỗi cửa hàng của các doanh nghiệp trong và ngoài nước đổ dồn vào thị trường thuê mặt bằng, thuê nhà để kinh doanh buôn bán hay thậm chí là để ở Điều đó đã làm cho thị trường khan hiếm về nhà cho thuê và cũng là một trong những nguyên nhân khiến cho chủ nhà tăng giá cho thuê lên chóng mặt Đó chỉ là một dẫn chứng ở Việt Nam để giúp mọi người dễ hình dung, nhưng ở các nước trên thế giới đều

có hiện tượng như vậy

Trong dự án này, nhóm chúng em đã đưa ra những đánh giá về các yếu tố ảnh hưởng đến tiền thuê nhà và dự báo tiền thuê nhà của 4747 mẫu bất kỳ đã đạt được Các nền tảng

lý thuyết được đề cập ở chương 2 được áp dụng để xây dựng mô hình dự báo có thể đảm bảo được các ước tính từ các phân tích nhất quán và có độ chính xác cao

2 Phân tích đánh giá hiệu quả kinh tế khi triển khai mô hình

Mô hình dự đoán giá trị nhà thuê này dựa trên các yếu tố khác nhau như vị trí của nhà, kích thước, số phòng, số tầng, tình trạng nội thất,… Từ đó có thể giúp mọi người đưa ra các quyết định phù hợp với nhu cầu của mỗi người và lựa chọn được những căn hộ/ ngôi nhà với số tiền thuê đánh giá đúng giá trị của nó

Với dữ liệu gồm 4747 ngôi nhà/ căn hộ có sẵn cùng với những thông tin về ngôi nhà, mọi người sẽ rất khó lựa chọn và băn khoăn không biết là số tiền mình bỏ ra để thuê ngôi nhà đó đã phù hợp với giá trị của nó và đáp ứng nhu cầu của mình chưa Có một số người sẽ lựa chọn việc đi hỏi ý kiến của mọi người và sau đó đưa ra quyết định có nên thuê hay không Việc làm đó khá là mất thời gian và đôi khi không giúp chúng ta đưa ra được lựa chọn tốt nhất, không những thế với dữ liệu gồm hơn 4700 căn hộ và nhiều

Trang 22

thông tin kèm theo, chúng ta sẽ bỏ sót nhiều căn hộ/ ngôi nhà phù hợp nếu không có hướng đi tốt và xây dựng một mô hình hoàn hảo Nhóm chúng em đã xây dựng mô hình đánh giá về giá trị nhà thuê để giúp mọi người có cái nhìn về các yếu tố ảnh hưởng đến tiền thuê nhà và đưa ra quyết định phù hợp nhất cho bản thân

Ngày đăng: 10/01/2023, 20:08

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w