1. Trang chủ
  2. » Luận Văn - Báo Cáo

Báo Cáo Bài Tập Lớn Xác Suất Thống Kê Xử Lý Số Liệu Gồm Tính Toán Các Giá Trị Thống Kê Mô Tả Giá Nhà Bánrathị Trường Phân Tích Dữ Liệu Phân Tích Mẫu Dữ Liệu Wine Quality.pdf

37 12 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Báo Cáo Bài Tập Lớn Xác Suất Thống Kê
Tác giả Lộ Trinh Khanh Van, Nguyộn Khanh Ha, Tran Ngoc Hộng Anh, Nguyễn Tõn Tõm Thy, Nguyễn Tuấn Hưng
Người hướng dẫn GVHD: Nguyễn Kiều Dung
Trường học Trường Đại Học Bách Khoa Thành Phố Hồ Chí Minh
Chuyên ngành Toán Ứng Dụng Khoa Kỹ Thuật Hóa Học
Thể loại báo cáo
Năm xuất bản 2021
Thành phố Thành Phố Hồ Chí Minh
Định dạng
Số trang 37
Dung lượng 3,47 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Ở hoạt đông 2, bản báo cáo trình bày việc áp dụng phương pháp phân tích hôi quy tuyến tính vào việc phân tích, làm rõ dữ liệu và mô hình dữ liệu về các yếu tố ảnh hưởng chất lượng rượu v

Trang 1

TRUONG DAI HOC BACH KHOA THANH PHO HO CHI MINH

BO MON TOAN UNG DUNG

KHOA KY THUAT HOA HOC

Lé Trinh Khanh Van- 2010777- Khoa KTHH- L19

Nguyén Khanh Ha- 2011131- Khoa KTHH- L19

Tran Ngoc Héng Anh- 2010130- Khoa KTHH- L07

Nguyễn Tân Tâm Thy- 2010683- Khoa KTHH- L10

Nguyễn Tuấn Hưng- 2013394- Khoa KTHH- L12

TP HO CHI MINH, NAM 2021

Trang 2

TOM 1 — 4

8 T8" : : 6 THƯƠNG T: CƠ SỞ UY THỦ VẾ TL cu 2e 8

I Phân tích hỔi qUy: s- 2 E1 122121 1EEE11111E1111111111 E2 1111111111111 re 8

1 Định nghÏa: c1 1 1222222111111 1225111111115 11111181 111kg vn kh 8

2 Bản Chat cceccceccccccccscscscsesscsesscscssscsusevevsussvscsecsvsusevsvsussesisevsvsseesesevssseeeee 8

3 Ý nghĩa của hồi quy tuyén tinhs ec cececceecccseseescseseeseseseteesevsesesevseseveeeees 9

1 Đọc đữ liệu (Import IData): . c2 1122222111111 1 11158 111115881111 re 14

2 Làm sạch đữ liệu (Data cleanIng) - + 2 1112212221111 zk2 14

3 Làm rõ dữ liệu (Data V1sual1Zafion\) - - - 21111333 S* 2+2 kkrreeeea 16

b Thống kê mô tae ccecccccceccccscsesesesecsessececsvscsecevsvsvsesevevssevevevsesesevevsvseseseee 18

4 Xây dựng mô hình hồi quy tuyến tính + 5k s‡EE1E2EEEEE112EEEEEcErrket 23

5 Thực hiện dự báo cho giá nhà quận K1ng c5 52 +2 S2S<sssccc+sss2 27

CHƯƠNG 3: PHẦN TÍCH SỐ LIỆU Lee 29

1 Mô tả dữ liỆu L0 2201111221111 111111111191 111111119111 KH tk TH khu 29

2 Phân tích dữ liệu - 2c 1 22 1222111121111 1111 1111111111111 1 181111 8111 1 khu 29

2.1 Đọc đữ liệu - - - - L Q ng ST ST TT TT TT nề ky 29

Trang 3

;”/9.i051 011 sa (iIa da 30 2.3 Làm sạch đữ liệu cceecccccececccceecccceusceccecueecceeeaueseceaueececeraueess 30

Trang 4

King nước Mỹ trong khoảng thời gian từ tháng 5/2014 đến 5/2015 Từ kết quả

thu được rút ra những nhận xét về tác động của các thuộc tính đó đối với sự

thay đổi về giá bán ra của thị trường Đề thu được kết quả phân tích, nhóm đã

sử dụng các hàm cơ bản của ngôn ngữ lập trình R và vận dụng linh hoạt giải quyết từng nhiệm vụ cụ thể đặt ra Kết quả được trình bày dưới dạng bảng số liệu tính toán hoặc đồ thị cung cấp một cái nhìn trực quan về khảo sát nhằm so sánh, đối chiếu giữa ảnh hưởng của các điều kiện của ngôi nhà (số tầng, diện tích ngôi nhà, khuôn viên, phong cảnh xung quanh ) lên giá nhà bán ra thị trường Trong bài báo cáo này, trước hết nhóm sẽ nêu cơ sở lý thuyết và tính toán các giá trị thống kê mô tả để có một cái nhìn sơ lược, sau đó áp dụng các phương pháp phân tích hồi quy tuyến tính bội

Ở hoạt đông 2, bản báo cáo trình bày việc áp dụng phương pháp phân tích hôi

quy tuyến tính vào việc phân tích, làm rõ dữ liệu và mô hình dữ liệu về các yếu

tố ảnh hưởng chất lượng rượu vang đỏ

Cụ thê, bài báo cáo gôm có:

Phân ï: Cơ sở lý thuyêt

Phan 2: Xu ly sô liệu gôm: Tính toán các giá trị thông kê mô tả giá nhà ban ra

thị trường

Phan 3: Phan tích dữ liệu: Phân tích mâu đữ liệu Wine quality

Trang 5

Xác suất thống kê là một môn học đại cương có tầm quan trọng đối với sinh

viên nói chung và sinh viên nhóm ngành Khoa học Kỹ thuật nói riêng Do đó,

việc dành cho môn học này một khối lượng thời gian nhất định và thực hành là

điều tật yêu để giúp sinh viên có cơ sở vững chăc về kiến thức và kỹ năng cần thiết cho các môn học chuyên ngành cũng như công việc sau này Sự phát triển

và ra đời của toán tin nói chung và phần mềm R Studio, ngôn ngữ R nói riêng

đã hỗ trợ rất nhiều trong quá trình học tập và nghiên cứu bộ môn Xác suất

thống kê Việc phân tích và xử lý số liệu đã được rút ngắn và có hiệu quả cao hơn Vi vậy mà việc tìm hiểu R Studio và ngôn ngữ R trong việc thực hành môn học Xác suất thống kê rất quan trọng và có tính cấp thiết Ở bài tập lớn này, nhóm thực hiện nội dung: Ứng dụng hôi quy tuyến tính bội để xử lý và

phân tích dữ liệu Trong suốt quá trình thực hiện bài tập, nhóm đã nhận được

rất nhiều sự quan tâm, ủng hộ vả giúp đỡ tận tình của thầy cô và bạn bè

Ngoài ra, nhóm cũng xin gửi lời tri ân chân thành nhất đến cô Nguyễn Kiều Dung — giảng viên giảng dạy bộ môn Xác suất thống kê của nhóm và là người

hướng dẫn cho đề tài này Nhờ sự hết lòng chỉ bảo mà nhóm đã hoản thành bài

tập đúng tiễn độ và giải quyết tốt những vướng mặc gặp phải Sự hướng dẫn của cô đã là kim chỉ nam cho mọi hành động của nhóm và phát huy được tối đa mối quan hệ hỗ trợ giữa cô và trò trong môi trường giáo dục Lời cuối, xin một lần nữa gửi lời biết ơn sâu sắc đến các cá nhân, các thây cô đã dành thời gian

chỉ dẫn cho nhóm Đây chính là niềm tin, là động lực to lớn để nhóm có thể hoàn thành đề tài này.

Trang 6

‘mutt tàn PA ppt tuy Perce,

Hoạt động Ï:

Tập tin "gia _nha.csv" chứa thông tin về giá bán ra thị trường (đơn vị đô la) của

21613 ngôi nhà ở quận King nước Mỹ trong khoảng thời gian từ tháng 5/2014 đến 5/2015 Bên cạnh giá nhà, dữ liệu còn bao gồm các thuộc tính mô tả chất lượng ngôi nhà Dữ liệu gốc được cung cấp tại:

https://www.kaggle.com/harlfoxem/housesalesprediction

Cac bién chinh trong bộ dữ liệu:

se price: Gia nha dugc ban ra

¢ floors: S6 tâng của ngôi nhà được phân loại từ 1-3.5

‹ condition: Điều kiện kiến trúc của ngôi nhà từ 1 — 5, 1: rất tệ và 5: rất tốt

‹ view: Đánh giá cảnh quan xung quanh nhà theo mức độ từ thấp đến cao: 0-4

¢ sqft_above: Dién tích ngôi nha

° sqft_living: Diện tích khuôn viên nhà

¢ sqft basement: Dién tich tang ham

Cac bước thực hiện:

1 Đọc dữ liệu (Import data): GN.csv (Đổi tên tập tin gia nha thành GN)

2 Làm sạch dữ liệu (Data cleaning): NA (dữ liệu khuyết)

3 Làm rõ dữ liệu: (Data vIsualization)

(a) Chuyển đổi biến (nếu cần thiết)

(b) Thống kê mô tả: dùng thống kê mẫu và dùng đô thị

4 Xây dựng mô hình hôi quy tuyến tính để đánh giá các nhân tố có thể ảnh

hưởng đến giá nhà ở quận King

5 Thực hiện dự báo cho gia nha quan King

Hoạt động 2:

° Sinh viên tự tìm một bộ dữ liệu thuộc vê chuyên ngành của mình Khuyên

khích sinh viên sử dụng đữ liệu thực tê sẵn có từ các thí nghiệm, khảo sát, dự

án, trong chuyên ngành của mình Ngoài ra sinh viên có thê tự tìm kiêm dữ

Trang 7

liệu từ những nguồn khác hoặc tham khảo trong kho dữ liệu cung cấp trong tập tin "kho du lieu BTL xstk.xIsx"

¢ Sinh viên được tự do chọn phương pháp lý thuyết phù hợp để áp dụng phân tích đữ liệu của mình, nhưng phải đảm bảo 2 phân: Làm rõ dữ liệu (data

vIsualization) và mô hình đữ liệu (model fitting)

Trang 8

Ý tưởng chung như sau: giả sử ta có một biến ngẫu nhiên Y , mà ta muốn ước

lượng xấp xỉ dưới dạng một hàm số F(ŒXạ, ,Xs ) của các biến ngẫu nhiên

X1, ,Xg khac (control variables), hay con goi 1a bién tự do, trong khi Y được

gọi là biến phụ thuộc, tức là khi ta có các gia tri cua X1, ,Xs , thi ta muốn từ

đó ước lượng được giá trị của Y Hàm số F này có thê phụ thuộc vào một số

tham số B = (B¡, , Bs) nào đó Ta có thể viết Y như sau:

Y= F(Xy, ,Xs) + €

trong do e là phân sai sô (cũng là một biên ngâu nhiên) Ta muôn chon ham F

một cách thích hợp nhât có thê, và các tham sô , sao cho sai sô e là nhỏ nhât

có thê

Đại lượng A4 E(|e|“ được gọi là sai sô chuân (standard error) của mô hình hôi qui Mô hình nào mà có saI sô chuân càng thâp thì được coI là càng chính xác

2 Bản chất:

* Bản chất của biến phụ thuộc Y

Y nói chung được giả định là một biến ngẫu nhiên, và có thể được đo lường

băng một trong bôn thước đo sau đây: thang đo tỷ lệ, thang đo khoảng, thang

đo thứ bậc, và thang đo danh nghĩa

Thang đo tỷ lệ (ratio scale): Một thang đo tỷ lệ có 3 tính chất: (1) tỷ số của hai biến, (2) khoảng cách giữa hai biến, và (3) xếp hạng các biến Với thang đo tỷ

lệ, ví dụ Y có hai giả trỊ, Ÿ¡ và Ÿ¿ thì tỷ sô Y1/ Yo và khoảng cách (Y; - Y¡) là các đại lượng có ý nghĩa; và có thể so sánh hoặc xếp thứ tự

Thang đo khoảng (interval scale): Thang đo khoảng không thỏa mãn tính chất đầu tiên của các biến có thang đo tỷ lệ

Thang đo thứ bậc (ordinal scale): Các biến chỉ thỏa mãn tính chất xếp hạng của thang đo tỷ lệ, chứ việc lập tỷ sô hay tính khoảng cách giữa hai giá trị không có

ý nghĩa

Thang đo danh nghĩa (nominal scale): Các biến thuộc nhóm này không thỏa mãn bât kỳ tính chât nào của các biên theo thang đo tỷ lệ (như giới tính, tôn 21a0, )

Trang 9

Các biến ngẫu nhiên có thể được đo theo bất kỳ một trong bốn thang đo vừa nêu trên, mặc dù trong nhiêu ứng dụng thực tê thì các biên giải thích được đo theo thang đo tỷ sô và thang đo khoảng

Gil CHa Sab SG) Pie ciln Fe Ỳ Ð êng gu g OUYY CC y fae ff af oS epee? v3 È 2 is

Sai số ngẫu nhiên đại diện cho tất cả các biến không được đưa vào mô hình vì

những lý do như không có sẵn dữ liệu, các lỗi đo lường trong dữ liệu Và cho

dù nguồn tạo nhiễu e là gì đi nữa, thì người ta giả định rằng ảnh hưởng trung

bình của sai số ngẫu nhiên lên Y là không đáng kẻ

Ta cũng giả định là hạng nhiễu có phân phối chuẩn với trung bình băng 0 và

phương sai không đổi là øˆ: e~N(0; ø”)

Tham số hôi quy (tổng thể), B¿ là những con số cố định (fñxed numbers) va không ngâu nhiên (not random), mặc dù mình không thê biệt giá trị thực của các Bs là bao nhiêu

3 Ý nghĩa của hồi quy tuyến tính:

Thuật ngữ tuyến tính (linear) trong mô hình hồi quy tuyến tính nghĩa là tuyến tính ở các hệ sô hôi quy (linearIty in the regression coefficients), Bs, và không phải tuyên tính ở các biên Y và X

H Mô hình hồi quy bội:

1 Định nghĩa:

Mô hình hồi quy bội là mô hình hồi quy trong đó: biến phụ thuộc Y phụ thuộc

vào (k— 1) biến độc lap X2,X3 , Xkk CO dang nhu sau:

Ham héi quy tong thé: E(Y| X2,X3 , Xk) = Bi + Bo Xo + B3 X3 + + BEX

Mô hình hôi quy tổng thể: Y = Bị + Ba Xa + Ba Xa + + BkXk.+€

Trong đó:

e c là sai số ngẫu nhiên

e Bilahé số tự do (hệ số chan), bang 21a tri trung binh cua Y khi Xj;=0

e ÿ¡ là hệ số hôi quy riêng (hay hệ số góc), thể hiện anh hưởng của

riêng từng biên độc lập X; lên trung bình của Y khi các biên khác được giữ không đôi Cụ thê, khi X; tăng hoặc giảm l don vi, trong điêu kiện các biên độc lập khác không đôi, thì Y trung bình sẽ thay đôi P¡ đơn vị Có thê nhận thây ba khả năng có thê xảy ra đôi với các

hệ sô góc:

Trang 10

s Hệ số B; > 0: khi đó mối quan hệ giữa Y và X; là thuận chiêu,

nghĩa là khi X; tăng (hoặc giảm) trong điều kiện các biến độc lập khác không đối thì Y cũng sẽ tăng (hoặc giảm)

“se Hé s6 Bj < 0: khi dé méi quan hé gitra Y va X; la nguoc chiéu, nghia 1a khi X; tăng (hoặc giảm) trong điều kiện các biến độc lập khác không đổi thì Y sẽ giảm (hoặc tăng)

“se Hé sé B; = 0: co thé cho rang gitta Y va X; khong co tuong quan với nhau, cụ thể là Y có thể không phụ thuộc vào X; hay là X; không thực sự ảnh hưởng tới Y

Dựa vào kết quả ước lượng với một mẫu cụ thé, ta có thể đánh giá được mối

quan hệ giữa biến phụ thuộc và các biến độc lập trong mô hình một cách tương

đối

Dù mô hình có nhiều biến độc lập nhưng vẫn tôn tại những yếu tỐ tác động đến biến phụ thuộc nhưng không đưa vào mô hình vì nhiều lý do (không có sô liệu hoặc không muôn đưa vào) Do đó trong mô hình vẫn tổn tại sai số ngẫu nhiên

c đại diện cho các yếu tố khác ngoài các biến Xj 9 2.3 k) có tác động đến

Y nhưng không đưa vào mô hình như là biên sô

2 Các giả thiết của mô hình hồi quy bội

TW

Giả thiết 1: Việc ước lượng được dựa trên cơ sở mẫu ngẫu nhiên

tả thiết 2: Kỳ vọng của sai sô ngẫu nhiên tại mỗi giá trị (Xa¡i,Xai,, Xki) bang 0:

E(e| Xai,Xãi, , Xki) = 0

Giả thiết 3: Phương sai của sai sô ngẫu nhiên tại các giá trị (Xa¡,Xai, , Xk¡) đều băng nhau

> Từ giả thiết 2 và 3 ta có thể nói sai số ngẫu nhiên (u) tuân theo phân phôi chuân

Giả thiết 4: Giữa các biến độc lập X¡ không có quan hệ cộng tuyến hoàn hảo, nghĩa là không tôn tại hăng số 22, 2a , À không đồng thời bằng 0 sao cho:

À2X›2 + À3X: + +ÀkXk= 0

> Có thể nhận thây nếu giữa các biến X¿(j = 2.3 k) có quan hệ cộng tuyên hoàn hảo thì sẽ có ít nhất một trong các biến này sẽ suy ra được từ các biến còn lại Do đó, giả thiết 4 được đưa ra đề loại trừ tình huống này

3 Phương pháp ước lượng mô hình hồi quy bội - Phương pháp bình

phương nhỏ nhất (OLS)

Sau khi xây dựng và tìm hiểu ý nghĩa của các hệ số hồi quy trong mô hình, vấn

đề tiệp theo ta quan tâm là làm sao đê có được các ước lượng đáng tin cậy cho các hệ sô B¡ này Cũng như với mô hình hôi quy hai biên, ta sẽ sử dụng phương

10

Trang 11

pháp bình phương nhỏ nhất (OLS) để ước lượng các hệ số trong mô hình hồi quy k biên

Xét mô hình k biến: Y = Bi + Bo X2+ Bs X3 + + BeXk + €

Giả sử có một mẫu quan sát với giá trị thuc té 1a (Yi, Xai, ., Xki) voi (i = 1, 2, ,n) Tasé su dung thong tin từ mâu đề xây dựng các ước lượng cho các

hệ số j; (j = 1, 2, ., k), ky hiéu 1a Bj G = 1, 2 , k) Từ các giá trị ước lượng này có thê việt thành hàm hôi quy mâu như sau:

Ÿ =Bi + BaX› + BsXs+ + BkXk

Tại mỗi quan sát ¡, hàm hồi quy mẫu được viết thành:

Ÿ¡= Bi + BaXai + BaXa¡+ + DkXui Trong đó Ÿ› là giá trị ước lượng cho Ÿ và sai lệch giữa hai giá trị này được gọi

là phân dư với cách tính:

11

Trang 12

không quá lớn Các giá trị ước lượng băng phương pháp OLS dựa trên số liệu mẫu cụ thể được xem như là các ước lượng điểm của các hệ số trong tổng thể

Với mô hình hỏi quy bội (hồi quy k biến với k > 2), việc giải hệ phương trình

để tìm các ước lượng hệ số P¡ (j = 1, 2 3 ) sẽ trở nên khó khăn hơn so với

mô hình hôi quy 2 biên do đó ta sẽ có được các kêt quả này với sự giúp của các phân mêm thông kê

Từ kết quả ước lượng từ phương pháp OLS, ta có thể khai thác các thông tin để

đánh giá tác động của biên độc lập đôi với sự thay đôi của biên phụ thuộc

thông qua ý nghĩa các hệ sô hôi quy

Khi các giả thiết từ 1 đến 4 thỏa mãn thì các ước lượng thu được từ phương

pháp OLS là ước lượng tuyên tính, không chệch và có phương sai nhỏ nhât trong lớp các ước lượng tuyên tính không chệch Hay nói một cách khác, nêu

giả thiệt từ I đên 4 được thỏa mãn thì ước lượng OLS là ước lượng tôt nhat

trong lớp các ước lượng tuyên tính không chệch

4 Đánh giá mức độ phù hợp của mô hình hồi quy bội

Khi đánh giá một mô hình dựa trên số liệu mẫu, nếu chỉ quan tâm đến các ước

lượng hệ sô và độ lệch chuân của nó thì chưa đây đủ Có một con sô cũng góp

phân không nhỏ khi đánh giá chât lượng mô hình đó là hệ sô xác định

Sau khi ước lượng được mô hình hồi quy trong một khoảng tin cậy, ta muốn biệt hàm hôi quy mâu phù hợp với sô liệu mâu đên mức nào Có thê đánh giả

điêu đó qua hệ sô xác định bội Ký hiệu R“

Cách xác định hệ số xác định bội:

Ta có:

TSS = >» = yy, -Y)’

i=]

ESS = Si “Le, -Y}

RSS, = ye? = > (Y, -Y,)

TSS (total sum of square): Tổng bình phương độ lệch toàn phân

ESS (Explained sum of square): Tổng bình phương độ lệch phần hồi quy

RSS (Residual sum of square): Tổng bình phương phân dư

Trang 13

Do cac thanh phan TSS, ESS, RSS déu không âm, nên từ biểu thức trên có thể

thây 0<R’<1

Giá trị R7 gan lién voi mau do do no do su phu hop cua mo hinh (ham HƯỜI quy) VỚI số liệu mẫu Ta kỳ vọng rang nếu mô hình có độ phù hợp cao với số liệu mẫu thì nó cũng phù hợp trong tổng thê

Y nghia cua hé số xác định bội

Với mô hình hồi quy k biến, R? có ý nghĩa như sau:

R? là tỷ lệ (hay tỷ lệ phần trăm) sự thay đồi của biến phụ thuộc được giải thích

bởi các biên độc lập trong mô hình

Với điều kiện 0 < R? < 1, ta có hai trường hợp đặc biệt đó là:

> R? = I nghĩa là 100% sự thay đối của biến phụ thuộc được giải thích bởi các

biên độc lập trong mô hình

> R?= 0 nghĩa là các biến độc lập không giải thích được một chút nào đối với

sự thay đôi của biên phụ thuộc

Rõ ràng, trong thực tế, khi xem xét các mối quan hệ giữa các biễn thông qua các mô hình hôi quy thì R7 thường năm trong khoảng (0,1) nhiêu hơn

Một tính chất quan trọng của R7 là nó sẽ tăng khi ta đưa thêm biến độc lập vào

mô hình Dễ dàng thấy rằng 7SS không phụ thuộc vào số biến giải thích trong

mô hình nhưng RSS lai giam Do đó, nếu tăng số biến biến độc lập trong mô

hình thì Rˆ cũng tăng Như vậy, việc đưa thêm một biến số bất kỳ vào mô hình nói chung sẽ làm gia tăng R? , khong kể nó có giúp giải thích thêm cho biến phụ thuộc hay không Điều này ngụ ý răng R? chưa phải là thước đo tốt khi

muốn so sánh các mô hình với số biến khác nhau

Để giải quyết vân đề thiếu sót này, ta xem xét khái niệm R? hiệu chỉnh, ký hiệu

la R* va được định nghĩa như sau:

B2_— 1 _ 2(n—1)

F2=1-(1-R?—

Ta thấy rằng khi số biến độc lập (k — 1) tăng lên thì R? cũng tăng lên nhưng

tăng chậm hơn so với R7

Giá trị R? thường được sử dụng thay R? khi so sánh hai mô hình có cùng biến

phụ thuộc nhưng sô lượng biên độc lập khác nhau

Trong thực tế, khi muốn đánh giá sự phù hợp của mô hình thì R2 hơn vì R2 rất

dễ đưa ra một kết quả lạc quan quá mức cho sự phù hợp của mô hình hồi quy khi số lượng biến giải thích lớn hơn nhiều số lượng biến ta quan sát Tuy nhiên,

ta không thể nói trong mọi bải toán R2 đều đưa ra mức độ phù hợp của mô hình hồi quy một cách chính xác nhất mà phải dựa vào đặc trưng của từng bải toán

cụ thể mà thực hiện tính toán sao cho phù hợp

13

Trang 14

CHUONG 2: XU LY SO LIEU

1 Doc dir liéu (Import Data): house_price.csv

Khai báo thư mục chứa tệp tin, dùng lệnh

70 20141007T000000 20150312T000000 20150124T000000 20140731T000000 20140529T000000 20141205T000000 20150424T000000 20140514T000000 20140826T000000 20140703T000000 20140516T000000 20141120T000000 20141103T000000 20140626T000000

20141201 T000000 Showing 1 to 28 of 21,613 entries, 24 total columns

1.75 1.00

Trang 15

Chọn các cột ứng với biên chính và gán đữ liệu trong các cột đó vào một tên

moi la newDT, xuat cac cột đó ra màn hình chính đê kiêm tra (nêu cân)

Nếu muốn biết vị trí cụ thể của những dữ liệu khuyết, ta dùng lệnh

apply(1s.na(newlT),2,which)

15

Trang 16

Từ kết quả R, ta thây 20 hàng của cột Price có dữ liệu khuyết ở các hàng 26, 54,

151, Vì số lượng đữ liệu khuyết là rất ít so với tổng số hàng dữ liệu (20 hàng

trong tông số 21613 hàng) nên ta có thể bỏ qua đữ liệu khuyết này Ta có thể

dùng lệnh dưới đây đề xóa các hàng chứa đữ liệu khuyết

Ta thay R đã xóa hàng 26, cũng như các hàng phía dưới chứa đữ liệu khuyết

3 Làm rõ dữ liệu (Data Visualization)

a Chuyên đôi biên:

16

Trang 17

Nhìn vào bảng sô liệu, ta thây có 2 loại biên cân được phân tích gôm: biên phân loại và biên liên tục

Biến phân loại gồm: floors, condition, view

Bién lién tuc g6m: price, sqft_above, sqft living, sqft basement

Trước khi chúng ta làm rõ dữ liệu, chúng ta cần chuyển doi cac biến liên tục trở thành dạng log (lây log các giá trị) và từ sau khi lay log, tất cả mọi tính toán đều dựa trên giá trị log cla các biến

Tuy nhiên, vì dữ liệu cột sqft_basement có giá trị 0, khi lây log sẽ trở thành - INF vi vay trước khi lây log chúng ta cần chuyển các giá trị 0 trong cột

sqft_basement thanh gia tri 1 Để việc lây log khong bi lỗi và ta vẫn nhận được

gia tri sau log la gia tri 0

Đề chuyển các gia tri 0 trong cét sqft basement thanh gia tri 1, ta dùng các lệnh dưới đây

Trang 18

Sau khi chuyển giá trị 0 thành 1, chúng ta cần phải chuyển cột dữ liệu sqft_basement đang ở dạng vecfo trở thành dạng sô và lây log các gia tri của

Showing 1 to 28 of 21,593 entries, 7 total columns

Ngày đăng: 30/12/2023, 04:53

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w