1. Trang chủ
  2. » Tất cả

Báo Cáo Bài Tập Lớn Xác Suất Thống Kê Xử Lý Số Liệu Gồm Tính Toán Các Giá Trị Thống Kê Mô Tả Giá Nhà Bánrathị Trường Phân Tích Dữ Liệu Phân Tích Mẫu Dữ Liệu Wine Quality.pdf

38 17 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Báo Cáo Bài Tập Lớn Xác Suất Thống Kê Xử Lý Số Liệu Gồm Tính Toán Các Giá Trị Thống Kê, Mô Tả Giá Nhà Trên Thị Trường, Phân Tích Dữ Liệu, Phân Tích Mẫu Dữ Liệu Wine Quality
Tác giả Nhóm HH07
Người hướng dẫn Nguyễn Kiều Dung
Trường học Trường Đại Học Bách Khoa Thành Phố Hồ Chí Minh
Chuyên ngành Xác Suất Thống Kê, Xử Lý Số Liệu
Thể loại Báo cáo
Năm xuất bản 2021
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 38
Dung lượng 3,48 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Cấu trúc

  • CHƯƠNG 1: CƠ SỞ LÝ THUYẾT (8)
    • I. Phân tích hồi quy (8)
      • 1. Định nghĩa (8)
      • 2. Bản chất (8)
      • 3. Ý nghĩa của hồi quy tuyến tính (9)
    • II. Mô hình hồi quy bội (9)
  • CHƯƠNG 2: XỬ LÝ SỐ LIỆU (14)
    • 1. Đọc dữ liệu (Import Data) (6)
    • 2. Làm sạch dữ liệu (Data cleaning) (6)
    • 3. Làm rõ dữ liệu (Data Visualization) (6)
    • 4. Xây dựng mô hình hồi quy tuyến tính (6)
    • 5. Thực hiện dự báo cho giá nhà quận King (6)
  • CHƯƠNG 3: PHÂN TÍCH SỐ LIỆU (29)
    • 1. Mô tả dữ liệu (29)
    • 2. Phân tích dữ liệu (29)
      • 2.1. Đọc dữ liệu (29)
      • 2.2. Chọn biến (30)
      • 2.3. Làm sạch dữ liệu (30)
      • 2.4. Làm rõ dữ liệu (31)
      • 2.5. Xây dựng các mô hình hồi quy tuyến tính (34)
      • 2.6. Dự đoán (37)
  • TÀI LIỆU THAM KHẢO (38)

Nội dung

1 TRƯỜNG ĐẠI HỌC BÁCH KHOA THÀNH PHỐ HỒ CHÍ MINH BỘ MÔN TOÁN ỨNG DỤNG KHOA KỸ THUẬT HÓA HỌC oOo BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ ĐỀ TÀI 1 GVHD NGUYỄN KIỀU DUNG THỰC HIỆN NHÓM HH07 SINH VIÊN THỰC[.]

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA THÀNH PHỐ HỒ CHÍ MINH

BỘ MÔN TOÁN ỨNG DỤNG KHOA KỸ THUẬT HÓA HỌC

……….oOo………

BÁO CÁO BÀI TẬP LỚN

XÁC SUẤT THỐNG KÊ

ĐỀ TÀI 1

GVHD: NGUYỄN KIỀU DUNG THỰC HIỆN: NHÓM HH07 SINH VIÊN THỰC HIỆN

1) Lê Trình Khánh Vân- 2010777- Khoa KTHH- L19

2) Nguyễn Khánh Hà- 2011131- Khoa KTHH- L19

3) Trần Ngọc Hồng Anh- 2010130- Khoa KTHH- L07

4) Nguyễn Tấn Tâm Thy- 2010683- Khoa KTHH- L10

TP HỒ CHÍ MINH, NĂM 2021

Trang 2

MỤC LỤC

TÓM TẮT 4

LỜI CẢM ƠN 5

ĐỀ BÀI 6

CHƯƠNG 1: CƠ SỞ LÝ THUYẾT 8

I Phân tích hồi quy: 8

1 Định nghĩa: 8

2 Bản chất: 8

3 Ý nghĩa của hồi quy tuyến tính: 9

II Mô hình hồi quy bội: 9

CHƯƠNG 2: XỬ LÝ SỐ LIỆU 14

1 Đọc dữ liệu (Import Data): 14

2 Làm sạch dữ liệu (Data cleaning) 14

3 Làm rõ dữ liệu (Data Visualization) 16

a Chuyển đổi biến: 16

b Thống kê mô tả 18

4 Xây dựng mô hình hồi quy tuyến tính 23

5 Thực hiện dự báo cho giá nhà quận King 27

CHƯƠNG 3: PHÂN TÍCH SỐ LIỆU 29

1 Mô tả dữ liệu 29

2 Phân tích dữ liệu 29

2.1 Đọc dữ liệu 29

Trang 3

2.2 Chọn biến 30

2.3 Làm sạch dữ liệu 30

2.4 Làm rõ dữ liệu 31

2.5 Xây dựng các mô hình hồi quy tuyến tính 34

2.6 Dự đoán 37

TÀI LIỆU THAM KHẢO 38

Trang 4

TÓM TẮT

Ở hoạt động 1, bản báo cáo trình bày việc áp dụng phương pháp phân tích hồiquy tuyến tính bội vào việc phân tích mẫu dữ liệu là tập tin "gia_nha.csv" chứathông tin về giá bán ra thị trường (đơn vị đô la) của 21613 ngôi nhà ở quậnKing nước Mỹ trong khoảng thời gian từ tháng 5/2014 đến 5/2015 Từ kết quảthu được rút ra những nhận xét về tác động của các thuộc tính đó đối với sựthay đổi về giá bán ra của thị trường Để thu được kết quả phân tích, nhóm đã

sử dụng các hàm cơ bản của ngôn ngữ lập trình R và vận dụng linh hoạt giảiquyết từng nhiệm vụ cụ thể đặt ra Kết quả được trình bày dưới dạng bảng sốliệu tính toán hoặc đồ thị cung cấp một cái nhìn trực quan về khảo sát nhằm sosánh, đối chiếu giữa ảnh hưởng của các điều kiện của ngôi nhà (số tầng, diệntích ngôi nhà, khuôn viên, phong cảnh xung quanh, ) lên giá nhà bán ra thịtrường Trong bài báo cáo này, trước hết nhóm sẽ nêu cơ sở lý thuyết và tínhtoán các giá trị thống kê mô tả để có một cái nhìn sơ lược, sau đó áp dụng cácphương pháp phân tích hồi quy tuyến tính bội

Ở hoạt đông 2, bản báo cáo trình bày việc áp dụng phương pháp phân tích hồiquy tuyến tính vào việc phân tích, làm rõ dữ liệu và mô hình dữ liệu về các yếu

tố ảnh hưởng chất lượng rượu vang đỏ

Cụ thể, bài báo cáo gồm có:

Trang 5

LỜI CẢM ƠN

Xác suất thống kê là một môn học đại cương có tầm quan trọng đối với sinhviên nói chung và sinh viên nhóm ngành Khoa học Kỹ thuật nói riêng Do đó,việc dành cho môn học này một khối lượng thời gian nhất định và thực hành làđiều tất yếu để giúp sinh viên có cơ sở vững chắc về kiến thức và kỹ năng cầnthiết cho các môn học chuyên ngành cũng như công việc sau này Sự phát triển

và ra đời của toán tin nói chung và phần mềm R Studio, ngôn ngữ R nói riêng

đã hỗ trợ rất nhiều trong quá trình học tập và nghiên cứu bộ môn Xác suấtthống kê Việc phân tích và xử lý số liệu đã được rút ngắn và có hiệu quả caohơn Vì vậy mà việc tìm hiểu R Studio và ngôn ngữ R trong việc thực hànhmôn học Xác suất thống kê rất quan trọng và có tính cấp thiết Ở bài tập lớnnày, nhóm thực hiện nội dung: Ứng dụng hồi quy tuyến tính bội để xử lý vàphân tích dữ liệu Trong suốt quá trình thực hiện bài tập, nhóm đã nhận đượcrất nhiều sự quan tâm, ủng hộ và giúp đỡ tận tình của thầy cô và bạn bè

Ngoài ra, nhóm cũng xin gửi lời tri ân chân thành nhất đến cô Nguyễn KiềuDung – giảng viên giảng dạy bộ môn Xác suất thống kê của nhóm và là ngườihướng dẫn cho đề tài này Nhờ sự hết lòng chỉ bảo mà nhóm đã hoàn thành bàitập đúng tiến độ và giải quyết tốt những vướng mắc gặp phải Sự hướng dẫncủa cô đã là kim chỉ nam cho mọi hành động của nhóm và phát huy được tối đamối quan hệ hỗ trợ giữa cô và trò trong môi trường giáo dục Lời cuối, xin mộtlần nữa gửi lời biết ơn sâu sắc đến các cá nhân, các thầy cô đã dành thời gianchỉ dẫn cho nhóm Đây chính là niềm tin, là động lực to lớn để nhóm có thểhoàn thành đề tài này

Trang 6

ĐỀ BÀI

Hoạt động 1:

Tập tin "gia_nha.csv" chứa thông tin về giá bán ra thị trường (đơn vị đô la) của

21613 ngôi nhà ở quận King nước Mỹ trong khoảng thời gian từ tháng 5/2014đến 5/2015 Bên cạnh giá nhà, dữ liệu còn bao gồm các thuộc tính mô tả chấtlượng ngôi nhà Dữ liệu gốc được cung cấp tại:

https://www.kaggle.com/harlfoxem/housesalesprediction

Các biến chính trong bộ dữ liệu:

• price: Giá nhà được bán ra

• floors: Số tầng của ngôi nhà được phân loại từ 1-3.5

• condition: Điều kiện kiến trúc của ngôi nhà từ 1 − 5, 1: rất tệ và 5: rất tốt

• view: Đánh giá cảnh quan xung quanh nhà theo mức độ từ thấp đến cao: 0-4

• sqft_above: Diện tích ngôi nhà

• sqft_living: Diện tích khuôn viên nhà

• sqft_basement: Diện tích tầng hầm

Các bước thực hiện:

1 Đọc dữ liệu (Import data): GN.csv (Đổi tên tập tin gia_nha thành GN)

2 Làm sạch dữ liệu (Data cleaning): NA (dữ liệu khuyết)

3 Làm rõ dữ liệu: (Data visualization)

(a) Chuyển đổi biến (nếu cần thiết)

(b) Thống kê mô tả: dùng thống kê mẫu và dùng đồ thị

4 Xây dựng mô hình hồi quy tuyến tính để đánh giá các nhân tố có thể ảnhhưởng đến giá nhà ở quận King

5 Thực hiện dự báo cho giá nhà quận King

Trang 7

liệu từ những nguồn khác hoặc tham khảo trong kho dữ liệu cung cấp trong tậptin "kho_du_lieu_BTL_xstk.xlsx".

• Sinh viên được tự do chọn phương pháp lý thuyết phù hợp để áp dụng phântích dữ liệu của mình, nhưng phải đảm bảo 2 phần: Làm rõ dữ liệu (data

visualization) và mô hình dữ liệu (model fitting)

Trang 8

CHƯƠNG 1: CƠ SỞ LÝ THUYẾT

I Phân tích hồi quy:

1 Định nghĩa:

Hồi qui (regression) là phương pháp thống kê toán học để ước lượng và kiểmđịnh các quan hệ giữa các biến ngẫu nhiên, và có thể từ đó đưa ra các dự báo.Các quan hệ ở đây được viết dưới dạng các hàm số hay phương trình

Ý tưởng chung như sau: giả sử ta có một biến ngẫu nhiên Y , mà ta muốn ướclượng xấp xỉ dưới dạng một hàm số F(X1, , XS) của các biến ngẫu nhiên

X1, , XS khác (control variables), hay còn gọi là biến tự do, trong khi Y đượcgọi là biến phụ thuộc, tức là khi ta có các giá trị của X1, , XS , thì ta muốn từ

đó ước lượng được giá trị của Y Hàm số F này có thể phụ thuộc vào một sốtham số β = (β1, , βS) nào đó Ta có thể viết Y như sau:

Y = F(X1, , XS) + ϵtrong đó ϵ là phần sai số (cũng là một biến ngẫu nhiên).Ta muốn chọn hàm Fmột cách thích hợp nhất có thể, và các tham số β, sao cho sai số ϵ là nhỏ nhất

có thể

qui Mô hình nào mà có sai số chuẩn càng thấp thì được coi là càng chính xác

2 Bản chất:

* Bản chất của biến phụ thuộc Y

Y nói chung được giả định là một biến ngẫu nhiên, và có thể được đo lườngbằng một trong bốn thước đo sau đây: thang đo tỷ lệ, thang đo khoảng, thang

đo thứ bậc, và thang đo danh nghĩa

Thang đo tỷ lệ (ratio scale): Một thang đo tỷ lệ có 3 tính chất: (1) tỷ số của haibiến, (2) khoảng cách giữa hai biến, và (3) xếp hạng các biến Với thang đo tỷ

lệ, ví dụ Y có hai giá trị, �1 và �2 thì tỷ số �1/�2 và khoảng cách (�2 - �1) làcác đại lượng có ý nghĩa; và có thể so sánh hoặc xếp thứ tự

Thang đo khoảng (interval scale): Thang đo khoảng không thỏa mãn tính chấtđầu tiên của các biến có thang đo tỷ lệ

Thang đo thứ bậc (ordinal scale): Các biến chỉ thỏa mãn tính chất xếp hạng củathang đo tỷ lệ, chứ việc lập tỷ số hay tính khoảng cách giữa hai giá trị không có

ý nghĩa

Thang đo danh nghĩa (nominal scale): Các biến thuộc nhóm này không thỏamãn bất kỳ tính chất nào của các biến theo thang đo tỷ lệ (như giới tính, tôngiáo, )

Trang 9

* Bản chất của biễn ngẫu nhiên X

Các biến ngẫu nhiên có thể được đo theo bất kỳ một trong bốn thang đo vừanêu trên, mặc dù trong nhiều ứng dụng thực tế thì các biến giải thích được đotheo thang đo tỷ số và thang đo khoảng

* Bản chất của sai số ngẫu nhiên (nhiễu) �

Sai số ngẫu nhiên đại diện cho tất cả các biến không được đưa vào mô hình vìnhững lý do như không có sẵn dữ liệu, các lỗi đo lường trong dữ liệu Và cho

dù nguồn tạo nhiễu � là gì đi nữa, thì người ta giả định rằng ảnh hưởng trungbình của sai số ngẫu nhiên lên Y là không đáng kể

Ta cũng giả định là hạng nhiễu có phân phối chuẩn với trung bình bằng 0 vàphương sai không đổi là �2: �~N(0; �2)

* Bản chất của tham số hồi quy �

không ngẫu nhiên (not random), mặc dù mình không thể biết giá trị thực củacác Bs là bao nhiêu

3 Ý nghĩa của hồi quy tuyến tính:

Thuật ngữ tuyến tính (linear) trong mô hình hồi quy tuyến tính nghĩa là tuyếntính ở các hệ số hồi quy (linearity in the regression coefficients), βS, và khôngphải tuyến tính ở các biến Y và X

II Mô hình hồi quy bội:

1 Định nghĩa:

Mô hình hồi quy bội là mô hình hồi quy trong đó: biến phụ thuộc Y phụ thuộcvào (k – 1) biến độc lập X2,X3, Xkkcó dạng như sau:

Hàm hồi quy tổng thể: E(Y| X2,X3, Xk) = 1+ 2X2+ 3X3+ … + kXk

Mô hình hồi quy tổng thể: Y = 1 + 2X2 + 3X3+ … + kXk+ �

Trong đó:

 � là sai số ngẫu nhiên

 1là hệ số tự do (hệ số chặn), bằng giá trị trung bình của Y khi Xj=0

điều kiện các biến độc lập khác không đổi, thì Y trung bình sẽ thayđổi j đơn vị Có thể nhận thấy ba khả năng có thể xảy ra đối với các

hệ số góc:

Trang 10

 Hệ số j > 0: khi đó mối quan hệ giữa Y và Xj là thuận chiều,

đổi thì Y cũng sẽ tăng (hoặc giảm)

đổi thì Y sẽ giảm (hoặc tăng)

ảnh hưởng tới Y

Dựa vào kết quả ước lượng với một mẫu cụ thể, ta có thể đánh giá được mốiquan hệ giữa biến phụ thuộc và các biến độc lập trong mô hình một cách tươngđối

Dù mô hình có nhiều biến độc lập nhưng vẫn tồn tại những yếu tố tác động đếnbiến phụ thuộc nhưng không đưa vào mô hình vì nhiều lý do (không có số liệuhoặc không muốn đưa vào) Do đó trong mô hình vẫn tồn tại sai số ngẫu nhiên

� đại diện cho các yếu tố khác ngoài các biến Xj (j = 2,3, ,k) có tác động đến

Y nhưng không đưa vào mô hình như là biến số

2 Các giả thiết của mô hình hồi quy bội

Giả thiết 1: Việc ước lượng được dựa trên cơ sở mẫu ngẫu nhiên

Giả thiết 2:Kỳ vọng của sai số ngẫu nhiên tại mỗi giá trị (X2i,X3i,, Xki) bằng 0:

tuyến hoàn hảo thì sẽ có ít nhất một trong các biến này sẽ suy ra được từ cácbiến còn lại Do đó, giả thiết 4 được đưa ra để loại trừ tình huống này

3 Phương pháp ước lượng mô hình hồi quy bội – Phương pháp bình phương nhỏ nhất (OLS)

Sau khi xây dựng và tìm hiểu ý nghĩa của các hệ số hồi quy trong mô hình, vấn

đề tiếp theo ta quan tâm là làm sao để có được các ước lượng đáng tin cậy chocác hệ số j này Cũng như với mô hình hồi quy hai biến, ta sẽ sử dụng phương

Trang 11

pháp bình phương nhỏ nhất (OLS) để ước lượng các hệ số trong mô hình hồiquy k biến.

Xét mô hình k biến: Y = 1+ 2X2+ 3X3+ … + kXk+ �

Giả sử có một mẫu quan sát với giá trị thực tế là (Yi, X2i, …, Xki) với (i = 1,

2, …, n) Ta sẽ sử dụng thông tin từ mẫu để xây dựng các ước lượng cho các

hệ số j(j = 1, 2, …, k), ký hiệu là j(j = 1, 2, …, k) Từ các giá trị ước lượngnày có thể viết thành hàm hồi quy mẫu như sau:

Khi đó, các giá trị = 1 + 2 + 3+…+ k sẽ là nghiệm của hệ gồm k phươngtrình sau:

Với điều kiện số quan sát trong mẫu lớn hơn số hệ số hồi quy cần ước lượng vàgiả thiết 4 được thỏa mãn thì hệ phương trình trên sẽ có nghiệm duy nhất Việcgiải hệ phương trình khá dễ dàng qua các phầm mềm thống kê nếu số biến

Trang 12

không quá lớn Các giá trị ước lượng bằng phương pháp OLS dựa trên số liệumẫu cụ thể được xem như là các ước lượng điểm của các hệ số trong tổng thể.Với mô hình hồi quy bội (hồi quy k biến với k > 2), việc giải hệ phương trình

mô hình hồi quy 2 biến do đó ta sẽ có được các kết quả này với sự giúp của cácphần mềm thống kê

Từ kết quả ước lượng từ phương pháp OLS, ta có thể khai thác các thông tin đểđánh giá tác động của biến độc lập đối với sự thay đổi của biến phụ thuộcthông qua ý nghĩa các hệ số hồi quy

Khi các giả thiết từ 1 đến 4 thỏa mãn thì các ước lượng thu được từ phươngpháp OLS là ước lượng tuyến tính, không chệch và có phương sai nhỏ nhấttrong lớp các ước lượng tuyến tính không chệch Hay nói một cách khác, nếugiả thiết từ 1 đến 4 được thỏa mãn thì ước lượng OLS là ước lượng tốt nhấttrong lớp các ước lượng tuyến tính không chệch

4 Đánh giá mức độ phù hợp của mô hình hồi quy bội

Khi đánh giá một mô hình dựa trên số liệu mẫu, nếu chỉ quan tâm đến các ướclượng hệ số và độ lệch chuẩn của nó thì chưa đầy đủ Có một con số cũng góp

Sau khi ước lượng được mô hình hồi quy trong một khoảng tin cậy, ta muốnbiết hàm hồi quy mẫu phù hợp với số liệu mẫu đến mức nào Có thể đánh giáđiều đó qua hệ số xác định bội Ký hiệu R2

Cách xác định hệ số xác định bội:

Ta có:

TSS (total sum of square): Tổng bình phương độ lệch toàn phần

ESS (Explained sum of square): Tổng bình phương độ lệch phần hồi quy

RSS (Residual sum of square): Tổng bình phương phần dư

TSS = ESS + RSS

Khi đó hệ số xác định bội của mô hình được xác định bởi công thức sau:

R2=������× 100% = (1 -������) × 100%

Trang 13

Do các thành phần TSS, ESS, RSS đều không âm, nên từ biểu thức trên có thể

với số liệu mẫu Ta kỳ vọng rằng nếu mô hình có độ phù hợp cao với số liệumẫu thì nó cũng phù hợp trong tổng thể

Ý nghĩa của hệ số xác định bội

Với mô hình hồi quy k biến, R2có ý nghĩa như sau:

R2là tỷ lệ (hay tỷ lệ phần trăm) sự thay đổi của biến phụ thuộc được giải thíchbởi các biến độc lập trong mô hình

Với điều kiện 0 ≤ R2≤ 1, ta có hai trường hợp đặc biệt đó là:

 R2 = 1 nghĩa là 100% sự thay đổi của biến phụ thuộc được giải thích bởi cácbiến độc lập trong mô hình

 R2= 0 nghĩa là các biến độc lập không giải thích được một chút nào đối với

sự thay đổi của biến phụ thuộc

Rõ ràng, trong thực tế, khi xem xét các mối quan hệ giữa các biến thông quacác mô hình hồi quy thì R2thường nằm trong khoảng (0,1) nhiều hơn

Một tính chất quan trọng của R2 là nó sẽ tăng khi ta đưa thêm biến độc lập vào

mô hình Dễ dàng thấy rằng TSS không phụ thuộc vào số biến giải thích trong

mô hình nhưng RSS lại giảm Do đó, nếu tăng số biến biến độc lập trong mô

muốn so sánh các mô hình với số biến khác nhau

Để giải quyết vấn đề thiếu sót này, ta xem xét khái niệm R2 hiệu chỉnh, ký hiệu

là �2và được định nghĩa như sau:

�2= 1 - (1 – R2)(�−1)(�−�)

tăng chậm hơn so với R2

phụ thuộc nhưng số lượng biến độc lập khác nhau

Trong thực tế, khi muốn đánh giá sự phù hợp của mô hình thì �2 hơn vì R2 rất

dể đưa ra một kết quả lạc quan quá mức cho sự phù hợp của mô hình hồi quykhi số lượng biến giải thích lớn hơn nhiều số lượng biến ta quan sát Tuy nhiên,

hồi quy một cách chính xác nhất mà phải dựa vào đặc trưng của từng bài toán

Trang 14

CHƯƠNG 2: XỬ LÝ SỐ LIỆU

1 Đọc dữ liệu (Import Data): house_price.csv

Khai báo thư mục chứa tệp tin, dùng lệnh

Trang 15

Từ kết quả chạy R, có thể thấy có 20 dữ liệu bị khuyết

Nếu muốn biết vị trí cụ thể của những dữ liệu khuyết, ta dùng lệnh

apply(is.na(newDT),2,which)

Trang 16

Từ kết quả R, ta thấy 20 hàng của cột Price có dữ liệu khuyết ở các hàng 26, 54,

151, …Vì số lượng dữ liệu khuyết là rất ít so với tổng số hàng dữ liệu (20 hàngtrong tổng số 21613 hàng) nên ta có thể bỏ qua dữ liệu khuyết này Ta có thểdùng lệnh dưới đây để xóa các hàng chứa dữ liệu khuyết

newDT<- na.omit(newDT)

Ta thấy R đã xóa hàng 26, cũng như các hàng phía dưới chứa dữ liệu khuyết

3 Làm rõ dữ liệu (Data Visualization)

a Chuyển đổi biến:

Trang 17

Nhìn vào bảng số liệu, ta thấy có 2 loại biến cần được phân tích gồm: biếnphân loại và biến liên tục

Biến phân loại gồm: floors, condition, view

Biến liên tục gồm: price, sqft_above, sqft_living, sqft_basement

Trước khi chúng ta làm rõ dữ liệu, chúng ta cần chuyển đổi các biến liên tục trởthành dạng log (lấy log các giá trị) và từ sau khi lấy log, tất cả mọi tính toánđều dựa trên giá trị log của các biến

Tuy nhiên, vì dữ liệu cột sqft_basement có giá trị 0, khi lấy log sẽ trở thành INF vì vậy trước khi lấy log chúng ta cần chuyển các giá trị 0 trong cộtsqft_basement thành giá trị 1 Để việc lấy log không bị lỗi và ta vẫn nhận đượcgiá trị sau log là giá trị 0

-Để chuyển các giá trị 0 trong cột sqft_basement thành giá trị 1, ta dùng cáclệnh dưới đây

Trang 18

Sau khi chuyển giá trị 0 thành 1, chúng ta cần phải chuyển cột dữ liệusqft_basement đang ở dạng vecto trở thành dạng số và lấy log các giá trị củacác biến liên tục

Trang 19

Sử dụng lệnh apply lên các cột dữ liệu là biến liên tục với các hàm tính trung

bình (mean), trung vị (median), độ lệch chuẩn (sd), giá trị nhỏ nhất (min) và giátrị lớn nhất (max)

stat_table<-apply(newDT[,c("price","sqft_living","sqft_above","sqft_basement")], 2,

function(x){ c(mean(x),median(x),sd(x),min(x),max(x))})

Sau đó dùng lệnhrowname để đặt tên lại cho các hàng giá trị

rownames(stat_table)<- c("mean", "median", "sd", "min", "max")

Xuất bảng giá trị ra màn hình

stat_table

Ngày đăng: 20/02/2023, 20:07

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] George C.Runner.Hoboken, Douglas C.Montgomery, Applied Statistic and Probability for Engineers, NJ: Wiley, 2007 Sách, tạp chí
Tiêu đề: Applied Statistic andProbability for Engineers
[2] Peter Dalgaard, Introductory Statistic with R, Springer 2008 Sách, tạp chí
Tiêu đề: Introductory Statistic with R
[4] Nguyễn Tiến Dũng, Đỗ Đức Thái, Nhập môn hiện đại Xác suất &amp; Thống kê, 2015 Sách, tạp chí
Tiêu đề: Nhập môn hiện đại Xác suất & Thống kê
[6] Gujarati, Econometrics by example, 2011 Sách, tạp chí
Tiêu đề: Econometrics by example
[5] Nguyễn Văn Tuấn, Xử lí số liệu và biểu đồ bằng R Khác

TỪ KHÓA LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w