1. Trang chủ
  2. » Tất cả

Bài tập lớn xác suất thống kê 2 cơ sở lý thuyết mô hình hồi quy bội

47 56 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Bài tập lớn xác suất thống kê 2 cơ sở lý thuyết mô hình hồi quy bội
Tác giả Nguyễn Kế Bửu, Nguyễn Thị Thu Hằng, Nguyễn Đức Thanh, Vũ Thị Lý, Nguyễn Cao Trung Nghĩa
Trường học Trường Đại học Bách Khoa Thành phố Hồ Chí Minh
Chuyên ngành Toán Ứng Dụng
Thể loại Bài tập lớn
Năm xuất bản 2022
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 47
Dung lượng 643,45 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Cấu trúc

  • 2.1 Định nghĩa (6)
  • 2.2 Các giả thiết của mô hình hồi quy bội (6)
  • 2.3 Phương pháp ước lượng mô hình hồi quy bội – Phương pháp bình phương nhỏ nhất (OLS) (7)
  • 2.4 Độ phù hợp của hàm hồi quy (8)
    • 2.4.1 Hệ số xác định bội (8)
    • 2.4.2 Hệ số xác định đã hiệu chỉnh (8)
  • 3.1 Đề bài (9)
  • 3.2 Thực hiện (10)
    • 3.2.1 Đọc dữ liệu (Import data) (10)
    • 3.2.2 Làm sạch dữ liệu (Data cleaning) (11)
    • 3.2.3 Làm rõ dữ liệu: (Data visualization) (12)
    • 3.2.3. a Đối với các biến liên tục (12)
    • 3.2.3. b Đối với các biến phân loại (13)
    • 3.2.3. c Vẽ đồ thị phân phối của biến G3 (14)
    • 3.2.3. d Vẽ phân phối của biến G3 cho từng nhóm phân loại của biến sex, studytime, failures, paid (15)
    • 3.2.3. e Vẽ các phân phối của biến G3 lần lượt theo các biến G2, G1, Absences (18)
    • 3.2.4 Xây dựng mô hình hồi quy tuyến tính (19)
    • 3.2.4. a Thực thi mô hình hồi quy tuyến tính bội (19)
    • 3.2.4. b Kiểm định các hệ số hồi quy (20)
    • 3.2.4. c Xây dựng các mô hình mới (20)
    • 3.2.4. d So sánh các mô hình (22)
    • 3.2.4. e Kiểm tra các giả định của mô hình (23)
    • 3.2.5 Thực hiện dự báo cho điểm Toán của học sinh (24)
    • 3.2.5. a Thống kê tỷ lệ đạt (G3 ≥ 10) hoặc không đạt (G3 < 10) 23 (24)
    • 3.2.5. b Dự đoán điểm G3 (25)
    • 3.2.5. c Bảng so sánh kết quả dự báo pred_G3 với kết quả thực tế của biến G3 (26)
  • 4.1 Đề bài (27)
  • 4.2 Thực hiện (28)
    • 4.2.1 Đọc dữ liệu (Import data) (28)
    • 4.2.2 Làm sạch dữ liệu (Data cleaning) (28)
    • 4.2.3 Làm rõ dữ liệu: (Data visualization) (29)
    • 4.2.3. a Thống kê mô tả cho các biến định lượng (29)
    • 4.2.3. b Thống kê mô tả cho các biến phân loại (29)
    • 4.2.3. c Biểu đồ phân phối tần số lifetime (30)
    • 4.2.3. d Phân phối của lifetime cho từng nhóm phân loại của biến 30 (31)
    • 4.2.4 Xây dựng mô hình hồi quy tuyến tính (34)
    • 4.2.4. a Thực thi mô hình hồi quy tuyến tính bội (34)
    • 4.2.4. b Xây dụng mô hình mới (36)
    • 4.2.4. c So sánh các mô hình (37)
    • 4.2.4. d Kiểm tra các giả định của mô hình (38)
    • 4.2.5 Thực hiện dự báo cho điểm Toán của học sinh (39)
  • 5.1 Code R hoạt động 1 (41)
  • 5.2 Code R hoạt động 2 (44)

Nội dung

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA BỘ MÔN TOÁN ỨNG DỤNG Bài tập lớn Xác suất Thống kê Nhóm 12 Lớp L05 Chủ đề 6 TA Nguyễn Thị Mộng Ngọc STT Họ và tên MSSV Lớp Khoa 1 Nguyễn[.]

Trang 1

Bài tập lớn Xác suất - Thống kê

Nhóm: 12 - Lớp: L05 - Chủ đề: 6

TA: Nguyễn Thị Mộng Ngọc

1 Nguyễn Kế Bửu (Nhóm trưởng) 2010942 L05 Khoa học và kĩ thuật máy tính

5 Nguyễn Cao Trung Nghĩa 2012519 L05 Khoa học và kĩ thuật máy tính

Tp HỒ CHÍ MINH, 25/05/2022

Trang 2

Mục Lục

2.1 Định nghĩa 5

2.2 Các giả thiết của mô hình hồi quy bội 5

2.3 Phương pháp ước lượng mô hình hồi quy bội – Phương pháp bình phương nhỏ nhất (OLS) 6

2.4 Độ phù hợp của hàm hồi quy 7

2.4.1 Hệ số xác định bội 7

2.4.2 Hệ số xác định đã hiệu chỉnh 7

3 Hoạt động 1 8 3.1 Đề bài 8

3.2 Thực hiện 9

3.2.1 Đọc dữ liệu (Import data) 9

3.2.2 Làm sạch dữ liệu (Data cleaning) 10

3.2.3 Làm rõ dữ liệu: (Data visualization) 11

3.2.3.a Đối với các biến liên tục 11

3.2.3.b Đối với các biến phân loại 12

3.2.3.c Vẽ đồ thị phân phối của biến G3 13

3.2.3.d Vẽ phân phối của biến G3 cho từng nhóm phân loại của biến sex, studytime, failures, paid 14

3.2.3.e Vẽ các phân phối của biến G3 lần lượt theo các biến G2, G1, Absences 17

3.2.4 Xây dựng mô hình hồi quy tuyến tính 18

3.2.4.a Thực thi mô hình hồi quy tuyến tính bội 18

3.2.4.b Kiểm định các hệ số hồi quy 19

3.2.4.c Xây dựng các mô hình mới 19

3.2.4.d So sánh các mô hình 21

3.2.4.e Kiểm tra các giả định của mô hình 22

3.2.5 Thực hiện dự báo cho điểm Toán của học sinh 23

3.2.5.a Thống kê tỷ lệ đạt (G3 ≥ 10) hoặc không đạt (G3 < 10) 23 3.2.5.b Dự đoán điểm G3 24

3.2.5.c Bảng so sánh kết quả dự báo pred_G3 với kết quả thực tế của biến G3 25

4 Hoạt động 2 26 4.1 Đề bài 26

4.2 Thực hiện 27

4.2.1 Đọc dữ liệu (Import data) 27

4.2.2 Làm sạch dữ liệu (Data cleaning) 27

4.2.3 Làm rõ dữ liệu: (Data visualization) 28

4.2.3.a Thống kê mô tả cho các biến định lượng 28

4.2.3.b Thống kê mô tả cho các biến phân loại 28

4.2.3.c Biểu đồ phân phối tần số lifetime 29

4.2.3.d Phân phối của lifetime cho từng nhóm phân loại của biến 30 4.2.4 Xây dựng mô hình hồi quy tuyến tính 33

4.2.4.a Thực thi mô hình hồi quy tuyến tính bội 33

Trang 3

4.2.4.b Xây dụng mô hình mới 35

4.2.4.c So sánh các mô hình 36

4.2.4.d Kiểm tra các giả định của mô hình 37

4.2.5 Thực hiện dự báo cho điểm Toán của học sinh 38

5 Phụ lục 40 5.1 Code R hoạt động 1 40

5.2 Code R hoạt động 2 43

Trang 4

Danh sách hình vẽ

1 Bảng giá trị thống kê mô tả 13

2 Bảng tần số của các biến phân loại 13

3 Đồ thị phân phối của G3 14

4 Đồ thị phân phối của G3 theo biến sex 15

5 Đồ thị phân phối của G3 theo biến studytime 15

6 Đồ thị phân phối của G3 theo biến failures 16

7 Đồ thị phân phối của G3 theo biến paid 16

8 Đồ thị phân phối của G3 theo biến G2 17

9 Đồ thị phân phối của G3 theo biến G1 17

10 Đồ thị phân phối của G3 theo biến absences 18

11 Đồ thị phần dư của mô hình 23

12 Thống kê tỷ lệ đạt và không đạt 24

13 Đồ thị phân phối của biến lifetime 29

14 Đồ thị phân phối của lifetime theo biến broken 30

15 Đồ thị phân phối của lifetime theo biến team 31

16 Đồ thị phân phối của lifetime theo biến provider 31

17 Đồ thị phân phối của lifetime theo biến pressureInd 32

18 Đồ thị phân phối của lifetime theo biến moistureInd 33

19 Đồ thị phân phối của lifetime theo biến temperatureInd 34

20 Đồ thị phần dư của mô hình 37

Trang 5

1 Bảng phân công công việc

2 Nguyễn Thị Thu Hằng 2013104 - Làm phần 1,2,3 của Hoạt động 2 20%

4 Vũ Thị Lý 2013731 - Dựa theo R-script để viết báo cáo 20%

phần Hoạt động 1

5 Nguyễn Cao Trung Nghĩa 2012519

- Soạn phần Cơ sở lý thuyết

20%

- Tổng hợp báo cáo và làm Latex

- Viết R-script cho Hoạt động 1

Trang 6

2 Cơ sở lý thuyết: Mô hình hồi quy bội

2.1 Định nghĩa

Mô hình hồi quy bội là mô hình hồi quy trong đó: biến phụ thuộc Y phụ thuộc vào (k − 1)biến độc lập X2, X3, , Xk có dạng như sau:

Hàm hồi quy tổng thể: E(Y |X2, X3, , Xk) = β1+ β2X2+ β3X3+ + βkXk

Mô hình hồi quy tổng thể: Y = β1+ β2X2+ β3X3+ + βkXk+ u

Trong đó:

• u là sai số ngẫu nhiên, đại diện cho các yếu tố có tác động đến Y nhưng không được đưavào mô hình như các biến số

• β1là hệ số tự do (hệ số chặn), bằng giá trị trung bình của Y khi Xj= 0

• βj là hệ số hồi quy riêng (hay hệ số góc), thể hiện ảnh hưởng của riêng từng biến độc lập

Xj lên trung bình của Y khi các biến khác được giữ không đổi Cụ thể, khi Xj tăng hoặcgiảm 1 đơn vị, trong điều kiện các biến độc lập khác không đổi, thì Y trung bình sẽ thayđổi βj đơn vị Có thể nhận thấy ba trường hợp có thể xảy ra đối với các hệ số góc:– Hệ số βj > 0: Mối quan hệ giữa Y và Xj là thuận chiều, nghĩa là khi Xj tăng (hoặcgiảm) trong điều kiện các biến độc lập khác không đổi thì Y cũng sẽ tăng (hoặc giảm).– Hệ số βj < 0: Mối quan hệ giữa Y và Xj là ngược chiều, nghĩa là khi Xj tăng (hoặcgiảm) trong điều kiện các biến độc lập khác không đổi thì Y sẽ giảm (hoặc tăng).– Hệ số βj= 0: có thể cho rằng giữa Y và Xj không có tương quan với nhau, cụ thể là

Y có thể không phụ thuộc vào Xj hay là Xj không thực sự ảnh hưởng tới Y Dựa vào kết quả ước lượng với một mẫu cụ thể, ta có thể đánh giá được mối quan hệ giữabiến phụ thuộc và các biến độc lập trong mô hình một cách tương đối

Dù mô hình có nhiều biến độc lập nhưng vẫn tồn tại những yếu tố tác động đến biến phụthuộc nhưng không đưa vào mô hình vì nhiều lý do (không có số liệu hoặc không muốn đưa vào)

Do đó trong mô hình vẫn tồn tại sai số ngẫu nhiên đại diện cho các yếu tố khác ngoài các biến

Xj(j = 2, 3, , k) có tác động đến Y nhưng không đưa vào mô hình như là biến số

2.2 Các giả thiết của mô hình hồi quy bội

Giả thiết 1: Việc ước lượng được dựa trên cơ sở mẫu ngẫu nhiên

Giả thiết 2: Kỳ vọng của sai số ngẫu nhiên tại mỗi giá trị (X2i, X3i, , Xki) bằng 0:

E(ui|(X2i, X3i, , Xki) = 0Giả thiết 3: Phương sai của sai số ngẫu nhiên tại các giá trị (X2i, , Xki) đều bằng nhau

var(u|(X2i, X3i, , Xki) = σ2

Từ giả thiết 2 và 3 ta có thể nói sai số ngẫu nhiên (u) tuân theo phân phối chuẩn

Giả thiết 4: Giữa các biến độc lập Xj không có quan hệ cộng tuyến hoàn hảo, nghĩa làkhông tồn tại hằng số λ2, λ3, , λk không đồng thời bằng 0 sao cho:

λ2X2+ λ3X3+ + λkXk = 0

Ta có thể thấy rằng nếu giữa các biến Xj(j = 2, 3, , k) có quan hệ cộng tuyến tính hoànhảo thì sẽ có ít nhất một biến trong các biến này sẽ suy ra được từ các biến còn lại Do đó, giảthiết 4 được đưa ra để loại trừ tình huống này

Trang 7

2.3 Phương pháp ước lượng mô hình hồi quy bội – Phương pháp bình phương nhỏ nhất (OLS)

Xét mô hình k biến:

Y = β1+ β2X2+ β3X3+ + βkXk+ uGiả sử có một mẫu quan sát với giá trị thực tế là (Yi, X2i, X3i, , Xki) với i = 1, 2, , n và

ta sẽ sử dụng thông tin từ mẫu để xây dựng các ước lượng cho các hệ số Bj(j = 1, 2, , k) kíhiệu là ˆβj(j = 1, 2, , k)

Khi đó hàm hồi quy mẫu được viết như sau:

ˆ

Y = ˆβ1+ ˆβ2X2+ ˆβ3X3+ + ˆβkXkHay tại mỗi quan sát hàm hồi quy này viết thành:

ˆ

Yi= ˆβ1+ ˆβ2X2i+ ˆβ3X3i+ + ˆβkXkiĐặt ei= ˆYi− Yi là phần dư giữa giá trị ước lượng và giá trị thực tế

Khi đó dễ thấy rằng ˆβ1, ˆβ2, ˆβ3, , ˆβk là nghiệm của hệ phương trình sau:

Pn i=1X2(Yi− ˆβ1− ˆβ2X2− ˆβ3X3− − ˆβkXk) = 0

Pn i=1Xk(Yi− ˆβ1− ˆβ2X2− ˆβ3X3− − ˆβkXk) = 0Với điều kiện số quan sát trong mẫu lớn hơn số hệ số hồi quy cần ước lượng và giả thiết 4được thỏa mãn thì hệ phương trình trên sẽ có nghiệm duy nhất Việc giải hệ phương trình khá

dễ dàng qua các phầm mềm thống kê nếu số biến không quá lớn Các giá trị ước lượng bằngphương pháp OLS dựa trên số liệu mẫu cụ thể được xem như là các ước lượng điểm của các hệ

số trong tổng thể

Với mô hình hồi quy bội (hồi quy k biến với k > 2), việc giải hệ phương trình để tìm cácước lượng hệ số ˆβj(j = 1, 2, 3, , k) sẽ trở nên khó khăn hơn so với mô hình hồi quy 2 biến do

đó ta sẽ có được các kết quả này với sự giúp của các phần mềm thống kê

Từ kết quả ước lượng trên, ta có thể khai thác các thông tin để đánh giá tác động của biếnđộc lập đối với sự thay đổi của biến phụ thuộc thông qua ý nghĩa các hệ số hồi quy

Khi các giả thiết từ 1 đến 4 thỏa mãn thì các ước lượng thu được từ phương pháp OLS làước lượng tuyến tính, không chệch và có phương sai nhỏ nhất trong lớp các ước lượng tuyến tínhkhông chệch Hay nói một cách khác, nếu giả thiết từ 1 đến 4 được thỏa mãn thì ước lượng OLS

là ước lượng tốt nhất trong lớp các ước lượng tuyến tính không chệch

Trang 8

2.4 Độ phù hợp của hàm hồi quy

R2=ESS

T SS = 1 −

RSS

T SS

Do T SS, ESS, RSS đều không âm, nên từ biểu thức trên có thể thấy 0 ≤ R ≤ 1

Giá trị R2đo sự phù hợp của mô hình (hàm hồi quy) với số liệu mẫu Ta kỳ vọng rằng nếu

mô hình có độ phù hợp cao với số liệu mẫu thì nó cũng phù hợp trong tổng thể

Ý nghĩa: Với mô hình hồi quy k biến, R2có ý nghĩa như sau:

• R2là tỷ lệ thay đổi của biến phụ thuộc được giải thích bởi các biến độc lập trong mô hình

• R2 thể hiện mức độ tương quan tuyến tính giữa biến phụ thuộc với các biến độc lập Cụthể, với 0 ≤ R ≤ 1, ta có hai trường hợp đặc biệt:

– R2= 1 nghĩa là 100% sự thay đổi của biến phụ thuộc được giải thích bởi các biến độclập trong mô hình

– R2= 0 nghĩa là các biến độc lập không giải thích được một chút nào đối với sự thayđổi của biến phụ thuộc

Rõ ràng, trong thực tế, khi xem xét các mối quan hệ giữa các biến thông qua các mô hìnhhồi quy thì R2thường nằm trong khoảng (0, 1) nhiều hơn

2.4.2 Hệ số xác định đã hiệu chỉnh

Một tính chất quan trọng của R2 là nó sẽ tăng khi ta đưa thêm biến độc lập vào mô hình

Dễ dàng thấy rằng T SS không phụ thuộc vào số biến giải thích trong mô hình nhưng RSS lạigiảm Do đó, nếu tăng số biến biến độc lập trong mô hình thì R2 cũng tăng

Như vậy, việc đưa thêm một biến số bất kỳ vào mô hình nói chung sẽ làm gia tăng R2, không

kể nó có giúp giải thích thêm cho biến phụ thuộc hay không Điều này ngụ ý rằng R2 chưa phải

là thước đo tốt khi muốn so sánh các mô hình với số biến khác nhau

Để giải quyết vấn đề thiếu sót này, ta xem xét khái niệm R2 hiệu chỉnh, ký hiệu là R2 vàđược xác định như sau: R2= 1(1 − R2)n−1

n−k

Khi số biến độc lập (k – 1) tăng lên thì R2 cũng tăng lên nhưng tăng chậm hơn so với R2.Giá trị R2 thường được sử dụng thay R2 khi so sánh hai mô hình có cùng biến phụ thuộcnhưng số lượng biến độc lập khác nhau

Trong thực tế, R2 được dùng nhiều hơn vì R2 rất dể đưa ra một kết quả lạc quan quá mứccho sự phù hợp của mô hình hồi quy khi số biến giải thích lớn hơn nhiều số lượng biến quan sát.Tuy nhiên, không phải mọi bài toán R2 đều đưa ra mức độ phù hợp của mô hình hồi quy mộtcách chính xác nhất mà phải dựa vào đặc trưng từng bài toán cụ thể mà tính toán cho phù hợp

Trang 9

• G3: Điểm cuối khoá.

• studytime: Thời gian tự học trên tuần ( 1 - ít hơn 2 giờ, 2 - từ 2 đê 5 giờ, 3 - từ 5 - 10giờ, or 4 - lớn hơn 10 giờ)

• failures: số lần không qua môn (1, 2, 3, hoặc 4 chỉ nhiều hơn hoặc bằng 4 lần)

• absences: số lần nghỉ học

• paid: Có tham gia các lớp học thêm môn Toán ngoài trường (có/không)

• sex: Giới tính của học sinh (Nam/nữ)

Các bước thực hiện:

1 Đọc dữ liệu (Import data): "diem_so.csv"

2 Làm sạch dữ liệu (Data cleaning): NA (dữ liệu khuyết)

3 Làm rõ dữ liệu: (Data visualization)

a) Chuyển đổi biến (nếu cần thiết)

b) Thống kê mô tả: dùng thống kê mẫu và dùng đồ thị

4 Xây dựng mô hình hồi quy tuyến tính để đánh giá các nhân tố có thể ảnh hưởng đến điểmthi cuối kỳ của sinh viên

5 Thực hiện dự báo cho điểm Toán của học sinh

Trang 10

3.2 Thực hiện

3.2.1 Đọc dữ liệu (Import data)

Đọc dữ liệu "diem_so.csv"

#Dua du lieu vao R, luu vao diem_so

diem_so<-read.csv("diem_so.csv")

#Xuat 10 dong dau tien cua du lieu

## 6 6 GP M 16 U LE3 T 4 3 services other

## 8 8 GP F 17 U GT3 A 4 4 other teacher

## 9 9 GP M 15 U LE3 A 3 2 services other

## 10 10 GP M 15 U GT3 T 3 4 other other

## reason guardian traveltime studytime failures schoolsup famsup paid

## activities nursery higher internet romantic famrel freetime goout Dalc Walc

Trang 11

3.2.2 Làm sạch dữ liệu (Data cleaning)

Tạo một dữ liệu mới chỉ bao gồm các biến chính mà ta quan tâm, lưu với tên là new_DF

#Du lieu chi chua bien chinh

new_DF<-diem_so[,c "sex","studytime","failures","paid","absences","G1","G2","G3")]

#Xuat 10 dong dau tien cua du lieu

Kiểm tra dữ liệu khuyết trong new_DF

#Xuat vi tri dong chua NA trong data

apply(is.na(new_DF),2,which)

Trang 12

#Xac dinh so luong NA trong data

apply(is.na(new_DF),2,sum)

## sex studytime failures paid absences G1 G2 G3

Thay thế giá trị trung bình ở các quan sát còn lại của biến G2 tại vị trí chứa dữ liệu khuyết:

#Thay the cac gia tri NA bang 0

new_DF$G2[is.na(new_DF$G2)]<-0

- Kiểm tra lại xem còn dữ liệu khuyết hay không:

#Xac dinh so luong NA trong data

apply(is.na(new_DF),2,sum)

## sex studytime failures paid absences G1 G2 G3

3.2.3 Làm rõ dữ liệu: (Data visualization)

3.2.3.a Đối với các biến liên tục

Ta tính các giá trị thống kê mô tả gồm: trung bình, trung vị, độ lệch chuẩn, giá trị lớn nhất

và giá trị nhỏ nhất Xuất kết quả dưới dạng bảng

Từ bảng dữ liệu đã có, xác định được các biến liên tục bao gồm: G1, G2, G3, absences

Sử dụng lệnhmean()để tính trung bình, lệnhmedian()để tính trung vị,sd()để tính độ lệchchuẩn, max() để tính giá trị lớn nhất,min() để tính giá trị nhỏ nhất cho các biến liên tục vừaphân loại

Sau đó lưu các giá trị trên vào cácvector, tiếp đến đưa cácvectorvàodataframeđể xuất radạng bảng

Dùng hàmrownames()để đặt tên cho các hàng

#Gia tri thong ke mo ta cua G1

aveG1 = mean(new_DF$G1)

Trang 13

medG1 = median(new_DF$G1)

sdG1 = sd(new_DF$G1)

maxG1 = max(new_DF$G1)

minG1 = min(new_DF$G1)

#Gia tri thong ke mo ta cua G2

aveG2 = mean(new_DF$G2)

medG2 = median(new_DF$G2)

sdG2 = sd(new_DF$G2)

maxG2 = max(new_DF$G2)

minG2 = min(new_DF$G2)

#Gia tri thong ke mo ta cua G3

aveG3 = mean(new_DF$G3)

medG3 = median(new_DF$G3)

sdG3 = sd(new_DF$G3)

maxG3 = max(new_DF$G3)

minG3 = min(new_DF$G3)

#Gia tri thong ke mo ta cua absences

aveAbs = mean(new_DF$absences)

medAbs = median(new_DF$absences)

sdAbs = sd(new_DF$absences)

maxAbs = max(new_DF$absences)

minAbs = min(new_DF$absences)

#Luu cac gia tri vao vector

vectorAve = c(aveG1, aveG2, aveG3, aveAbs)

vectorMed = c(medG1, medG2, medG3, medAbs)

vectorSd = c(sdG1, sdG2, sdG3, sdAbs)

vectorMax = c(maxG1, maxG2, maxG3, maxAbs)

vectorMin = c(minG1, minG2, minG3, minAbs)

statistical_table1 = data.frame("Average" = vectorAve, "Median" = vectorMed,

"Standard_deviation" = vectorSd, "Max" = vectorMax,

"Min" = vectorMin)

#Dat ten cac hang

rownames(statistical_table1) <- c "G1", "G2", "G3", "absences")

Kết quả xuất ra thông qua lệnh:

#Xuat bang

View(statistical_table1)

3.2.3.b Đối với các biến phân loại

Từ bảng dữ liệu đã có, xác định được các biến phân loại là sex, studytime, failures, paid.Dùng hàmtable()để đếm tần số của các biến phân loại

Trang 14

Figure 1: Bảng giá trị thống kê mô tả

#dem tan so cac bien phan loai

x = table(new_DF$sex, dnn = "Sex")

y = table(new_DF$studytime, dnn = "Studytime")

z = table(new_DF$failures, dnn = "Failures")

t = table(new_DF$paid, dnn = "Paid")

Kết quả xuất ra thông qua lệnh:

#xuat cac bang

View(x)

View(y)

View(z)

View(t)

Figure 2: Bảng tần số của các biến phân loại

3.2.3.c Vẽ đồ thị phân phối của biến G3

Tạo ra một biến tên Last_course để lưu giá trị của điểm cuối kỳ

Dùng hàmhist()để vẽ phân phối của biến

Trang 15

#do thi phan phoi cua G3

Last_course = new_DF$G3

hist(Last_course)

Kết quả xuất ra:

Figure 3: Đồ thị phân phối của G3

3.2.3.d Vẽ phân phối của biến G3 cho từng nhóm phân loại của biến sex, studytime,

failures, paid

Dùng hàmboxplot()để vẽ phân phối của biến G3 lần lượt theo các biến sex, studytime,failures, paid Xác định được giá trị lớn nhất, nhỏ nhất, tứ phân vị thứ nhất, trung vị và tứphân vị thứ ba của G3 theo các biến trên

#do thi phan phoi cua G3 theo bien sex

boxplot(new_DF$G3~new_DF$sex, ylab = "G3", xlab = "Sex",

main = "Boxplot Distribution of G3 for Sex")

#do thi phan phoi cua G3 theo bien studytime

boxplot(new_DF$G3~new_DF$studytime, ylab = "G3", xlab = "Studytime",

main = "Boxplot Distribution of G3 for Studytime")

#do thi phan phoi cua G3 theo bien failures

boxplot(new_DF$G3~new_DF$failures, ylab = "G3", xlab = "Failures",

main = "Boxplot Distribution of G3 for Failures")

#do thi phan phoi cua G3 theo bien paid

boxplot(new_DF$G3~new_DF$paid, ylab = "G3", xlab = "Paid",

main = "Boxplot Distribution of G3 for Paid")

Kết quả thu được:

Trang 16

Figure 4: Đồ thị phân phối của G3 theo biến sex

Figure 5: Đồ thị phân phối của G3 theo biến studytime

Trang 17

Figure 6: Đồ thị phân phối của G3 theo biến failures

Figure 7: Đồ thị phân phối của G3 theo biến paid

Trang 18

3.2.3.e Vẽ các phân phối của biến G3 lần lượt theo các biến G2, G1, AbsencesDùng hàm pairs() để vẽ vẽ các phân phối của biến G3 lần lượt theo các biến G2, G1,Absences

#do thi phan phoi cua G3 theo bien G2

Kết quả xuất ra:

Figure 8: Đồ thị phân phối của G3 theo biến G2

Figure 9: Đồ thị phân phối của G3 theo biến G1

Trang 19

Figure 10: Đồ thị phân phối của G3 theo biến absences

3.2.4 Xây dựng mô hình hồi quy tuyến tính

3.2.4.a Thực thi mô hình hồi quy tuyến tính bội

Sử dụng lệnhlm()để tạo ra mô hình hồi quy tuyến tính với CK là biến phụ thuộc, tất cả

các biến còn lại đều là biến độc lập

Sử dụng lệnhsummary()để liệt kê các thông tin tính toán cần thiết để giải quyết vấn đề của

bài toán

#mo hinh hoi quy tuyen tinh

model_1<-lm(G3 ~ sex + studytime + failures + paid + absences + G1 + G2, data = new_DF)

#liet ke thong tin

Trang 20

## G2 0.67071 0.04894 13.705 < 2e-16 ***

##

-## Signif codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

##

## Residual standard error: 2.213 on 387 degrees of freedom

## Multiple R-squared: 0.7708,Adjusted R-squared: 0.7667

## F-statistic: 185.9 on 7 and 387 DF, p-value: < 2.2e-16

Ta thấy rằng p-value tương ứng với thống kê F bé hơn 2.2e − 16, có ý nghĩa rất cao Điềunày chỉ ra rằng, ít nhất một biến dự báo trong mô hình có ý nghĩa giải thích rất cao cho biếnG3

3.2.4.b Kiểm định các hệ số hồi quy

Giả thuyết H0: Hệ số hồi quy βi không có ý nghĩa (βi= 0), với i = 0, 1, , 8

Giả thuyết H1: Hệ số hồi quy βi có ý nghĩa (βi= 0), với i = 0, 1, , 8

Ta cũng nhận thấy rằng p-value của các biến sex, studytime, paid lớn hơn mức ý nghĩa5% nên ta chưa bác bỏ được giả thuyết H0 Vậy hệ số ứng với các biến này không có ý nghĩathống kê cho thấy rằng các biến sex, studytime, paid này không có ý nghĩa đối với mô hìnhhồi quy ta vừa xây dựng, do đó ta có thể loại bỏ biến sex, studytime, paid ra khỏi mô hìnhhồi quy

3.2.4.c Xây dựng các mô hình mới

Xây dựng mô hình hồi quy model_2 là mô hình bỏ đi biến sex từ model_1:

model_2<-lm(G3 ~ studytime + failures + paid + absences + G1 + G2, data = new_DF)

summary(model_2) #Tom tat ket qua 'model_2

Trang 21

## Residual standard error: 2.215 on 388 degrees of freedom

## Multiple R-squared: 0.7698,Adjusted R-squared: 0.7663

## F-statistic: 216.3 on 6 and 388 DF, p-value: < 2.2e-16

Xây dựng mô hình hồi quy model_3 là mô hình bỏ đi biến studytime từ model_2:

model_3<-lm(G3 ~ failures + paid + absences + G1 + G2, data = new_DF)

summary(model_3) #Tom tat ket qua 'model_3

## Residual standard error: 2.219 on 389 degrees of freedom

## Multiple R-squared: 0.7684,Adjusted R-squared: 0.7654

## F-statistic: 258.1 on 5 and 389 DF, p-value: < 2.2e-16

Xây dựng mô hình hồi quy model_4 là mô hình bỏ đi biến paid từ model_3:

model_4<-lm(G3 ~ failures + absences + G1 + G2, data = new_DF)

summary(model_4) #Tom tat ket qua 'model_4

Trang 22

## Estimate Std Error t value Pr(>|t|)

## Residual standard error: 2.221 on 390 degrees of freedom

## Multiple R-squared: 0.7673,Adjusted R-squared: 0.7649

## F-statistic: 321.4 on 4 and 390 DF, p-value: < 2.2e-16

3.2.4.d So sánh các mô hình

Ta dùng lệnhanova()với cặp mô hình Sau đó dùng dữ liệu ở cột P r(> F ) để đánh giá

- So sánh model_1 và model_2

Giả thuyết H0: Mô hình 1 và 2 hiệu quả giống nhau

Giả thuyết H1: Mô hình 1 và 2 hiệu quả khác nhau

#so sanh mo hinh 1 va 2

anova(model_1,model_2)

## Analysis of Variance Table

##

## Model 1: G3 ~ sex + studytime + failures + paid + absences + G1 + G2

## Model 2: G3 ~ studytime + failures + paid + absences + G1 + G2

Giả thuyết H0: Mô hình 2 và 3 hiệu quả giống nhau

Giả thuyết H1: Mô hình 2 và 3 hiệu quả khác nhau

#so sanh mo hinh 2 va 3

anova(model_2,model_3)

## Analysis of Variance Table

##

## Model 1: G3 ~ studytime + failures + paid + absences + G1 + G2

## Model 2: G3 ~ failures + paid + absences + G1 + G2

## Res.Df RSS Df Sum of Sq F Pr(>F)

## 1 388 1903.6

## 2 389 1915.6 -1 -11.972 2.4401 0.1191

Trang 23

Ta nhận thấy p-value = 0.1191 lớn hơn mức ý nghĩa 5% nên ta chưa bác bỏ được giảthuyết H0 Vậy hai mô hình 2 và 3 hiệu quả giống nhau.

- So sánh model_3 và model_4

Giả thuyết H0: Mô hình 3 và 4 hiệu quả giống nhau

Giả thuyết H1: Mô hình 3 và 4 hiệu quả khác nhau

#so sanh mo hinh 3 va 4

anova(model_3,model_4)

## Analysis of Variance Table

##

## Model 1: G3 ~ failures + paid + absences + G1 + G2

## Model 2: G3 ~ failures + absences + G1 + G2

G3 = −1.35334 − 0.21476 ∗ studytime − 0.37897 ∗ f ailures + 0.36268 ∗ paid

+0.03425 ∗ absences + 0.44602 ∗ G1 + 0.67140 ∗ G2

Hệ số xác định hiệu chỉnh (Adjusted R-squared): R2hiệu chỉnh = 0.7663 nghĩa là 76.63% sựbiến thiên trong điểm cuối khóa G3 được giải thích bởi các biến độc lập (studytime, failures,paid, absences, G1, G2)

Để xét ảnh hưởng cụ thể của từng biến độc lập, ta xét các hệ số hồi quy βjvà p-value tươngứng Ta thấy rằng p-value tương ứng với biến G2 bé hơn 2e 16, điều này nói lên rằng ảnh hưởngbiến này có ý nghĩa rất cao lên biến điểm cuối khóa G3

Mặc khác, khi thay đổi một thông số và giữ nguyên các thông số còn lại thì: Với studytime:khi tăng thêm 1 thì G3 giảm đi 0.21476 Với failures: khi tăng thêm 1 thì G3 giảm đi 0.37897.Tương tự với các biến còn lại

3.2.4.e Kiểm tra các giả định của mô hình

Ta thực hiện phân tích thặng dư để kiểm tra các giả định của mô hình:

#do thi phan du cua mo hinh

plot(model_2)

Ngày đăng: 21/02/2023, 04:57

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[7] Tool: latex editor, truy cập từ: https://www.overleaf.com/ Link
[1] George C.Runner.Hoboken, Douglas C.Montgomery, Applied Statistic and Probability for Engineers, NJ: Wiley, 2007 Khác
[2] Peter Dalgaard, Introductory Statistic with R, Springer 2008 Khác
[3] F. Almeida, P. Cortez, A. Cerdeira, T. Matos and J. Reis. Modeling wine preferences by data mining from physicochemical properties. In Decision Support Systems, Elsevier, 47(4):547- 553, 2009 Khác
[4] Nguyễn Tiến Dũng, Đỗ Đức Thái, Nhập môn hiện đại Xác suất Thống kê, 2015 [5] Nguyễn Văn Tuấn, . Xử lí số liệu và biểu đồ bằng R Khác
[6] Gujarati, Econometrics by example , 2011 v Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w