1. Trang chủ
  2. » Khoa Học Tự Nhiên

Bài giảng Hồi quy và tương quan ThS. Nguyễn Chí Minh Trung

41 59 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 41
Dung lượng 0,96 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Bài giảng Hồi quy và tương quan cung cấp cho người học các kiến thức: Phân tích được sự liên quan giữa hai biến định lượng thông qua biểu đồ, Xây dựng và phiên giải đường hồi quy, Tính và phiên giải được hệ số tương quan, Kiểm định đường hồi quy.

Trang 1

Hồi quy và tương quan

ThS Nguyễn Chí Minh Trung

Trang 2

Mục tiêu

1 Phân tích được sự liên quan giữa hai biến định lượng thông qua biểu đồ

2 Xây dựng và phiên giải đường hồi quy

3 Tính và phiên giải được hệ số tương quan

4 Kiểm định đường hồi quy

Trang 3

Hồi quy và tương quan

Nội dung chính:

1 Giới thiệu chung

2 Mô hình hồi quy

3 Phương trình hồi quy

4 Đánh giá phương trình hồi quy

5 Sử dụng mô hình hồi quy để ước lượng và dự đoán

6 Mô hình tương quan

Trang 4

1 Giới thiệu

Hồi quy (regression) :

• Khẳng định mối liên hệ giữa hai biến số,

• Dự đoán hoặc ước lượng giá trị của một biến số từ

các giá trị của một hay nhiều biến số khác

Ví dụ: dự đoán huyết áp dựa trên tuổi, cân nặng,

Ý tưởng về hồi quy được nhà khoa học người Anh, Francis Galton (1822-1911) đưa ra lần đầu tiên trong nghiên cứu về di truyền – hình thể con người

Trang 5

1 Giới thiệu

Tương quan (correlation)

• Đo lường độ lớn của mối quan hệ giữa các biến

số với nhau

Trang 6

2 Mô hình hồi quy

- cần đưa ra một dự đoán hoặc ước lượng giá trị của một biến số từ các giá trị của một hay nhiều biến số,

- người nghiên cứu đưa ra được một mô hình toán học

hoặc áp dụng được các mô hình để phân tích các quần thể này

- mô hình đó có, hoặc ít nhất là một xấp xỉ đại diện cho

quần thể đó không

- mô hình đó là một đại diện tốt nhất cho quần thể họ quan tâm

Trang 7

2 Mô hình hồi quy

Các giả thuyết cho mô hình hồi quy

Trong mô hình hồi quy tuyến tính:

+ X là một biến độc lập và bao giờ cũng được kiểm soát bởi

người nghiên cứu

+ Y được biết đến là biến phụ thuộc (còn gọi là biến tiên

lượng)

Trang 8

2 Mô hình hồi quy

Mô hình hồi quy dựa trên một số giả thuyết sau:

1 Giá trị của biến X là cố định và có một số lượng giới hạn các

giá trị

2 Biến X được thu thập không có sai số, hoặc sai số rất

3 Đối với mỗi giá trị của biến X thì ta sẽ xác định được một tập

hợp giá trị của biến Y; tập hợp giá trị của Y có phân bố chuẩn

4 Tất cả các phương sai của các tập hợp giá trị Y là bằng nhau

5 Tất cả các giá trị trung bình của tập hợp giá trị Y đều nằm trên

một đường thẳng

6 Các giá trị của Y là độc lập với nhau

Trang 9

2 Mô hình hồi quy

Trang 10

2 Mô hình hồi quy

Trang 11

3 Phương trình hồi quy

Các bước tiến hành một phân tích hồi quy

1.Đánh giá xem các giả thuyết về mối liên hệ tương quan tuyến tính trong bộ số liệu để phân tích có thoả mãn không 2.Xác định phương trình đường hồi quy mô tả bộ số liệu đó một cách chính xác nhất

3.Đánh giá phương trình hồi quy để xác định mức độ của mối tương quan và tính áp dụng của nó trong việc dự đoán

và ước lượng

4.Nếu các số liệu được thể hiện tốt trong mô hình tuyến

tính vừa xây dựng, sử dụng phương trình hồi quy để dự

đoán và ước lượng các giá trị

Trang 12

3 Phương trình hồi quy

Biểu đồ chấm điểm

gợi ý cho chúng ta

được mối quan hệ tự nhiên

của hai biến

đường thẳng nào trong

các đường thẳng đó cho

phép mô tả tốt nhất về mối

liên hệ giữa hai biến X và

Y?

Trang 13

3 Phương trình hồi quy

Đường bình phương tối thiểu square line)

(least-Là một đường thẳng mà từ đó tổng

bình phương tới đường thẳng trung

bình là nhỏ nhất (tối thiểu)

Trang 14

Tính toán đường bình phương tối thiểu

i i n

n

x x

n

y

x y

x

x x

y y

x

x b

1

1

2 2

) )(

(

) (

) )(

(

Tính các hệ số hồi quy từ mẫu

x b y

Trang 15

Ví dụ

Kết quả đo vòng bụng (X) và độ dày mỡ bụng (Y) của 109 đàn ông

1 74.75 25.72 21 76.85 36.6 41 83.5 73.13 61 77.6 57.05 81 103.5 132 101 106 151

2 72.6 25.89 22 80.9 40.25 42 76 50.5 62 84.9 99.73 82 110 126 102 109.7 229

3 81.8 42.6 23 79.9 35.43 43 80.5 50.88 63 79.8 27.96 83 110 153 103 115 253

4 83.95 42.8 24 89.2 60.09 44 86.5 140 64 108.3 123 84 112 158 104 101 188

5 74.65 29.84 25 82 45.84 45 80 96.54 65 119.6 90.41 85 108.5 183 105 100.1 124

6 71.85 21.68 26 92 70.4 46 107.1 118 66 119.9 106 86 104 184 106 93.3 62.2

7 80.9 29.08 27 86.6 83.45 47 94.3 107 67 96.5 144 87 111 121 107 101.8 133

8 83.4 32.98 28 80.5 84.3 48 94.5 123 68 105.5 121 88 108.5 159 108 107.9 208

9 63.5 11.44 29 86 78.89 49 79.7 65.92 69 105 97.13 89 121 245 109 108.5 208

10 73.2 32.22 30 82.5 64.75 50 79.3 81.29 70 107 166 90 109 137

11 71.9 28.32 31 83.5 72.56 51 89.8 111 71 107 87.99 91 97.5 165

12 75 43.96 32 88.1 89.31 52 83.8 90.73 72 101 154 92 105.5 152 13 73.1 38.21 33 90.8 78.94 53 85.2 133 73 97 100 93 98 181

14 79 42.48 34 89.4 83.55 54 75.5 41.9 74 100 123 94 94.5 80.95

15 77 30.96 35 102 127 55 78.4 41.71 75 108 217 95 97 137

16 68.85 55.78 36 94.5 121 56 78.6 58.16 76 100 140 96 105 125 17 75.95 43.78 37 91 107 57 87.8 55.85 77 103 109 97 106 241

18 74.15 33.41 38 103 129 58 86.3 155 78 104 127 98 99 134

19 73.8 43.35 39 80 74.02 59 85.5 70.77 79 106 112 99 91 150

20 75.9 29.31 40 79 55.48 60 83.7 75.08 80 109 192 100 102.5 198

Trang 16

Ví dụ

x bx

i i

n

x x

n

y

x y

x b

1

1

2 2

1

) (

) )(

(

x b y

Trang 17

Ví dụ

Kết quả từ excel

SUMMARY OUTPUT

Regression Statistics

Multiple R 0.81730461

R Square 0.66798682

Adjusted R Square 0.66488389

Standard Error 33.2575684

Observations 109

ANOVA

df SS MS F Significance F

Regression 1 238109.8 238109.8 215.2764 2.26E-27 Residual 107 118349 1106.066

Total 108 356458.9

Coefficients

Standard Error t Stat P-value Lower 95% Upper 95%

Intercept -215.916652 21.87322 -9.87128 9.99E-17 -259.278 -172.556

X Variable 1 3.45569752 0.235525 14.6723 2.26E-27 2.988796 3.922599

x

Trang 18

Đường hồi quy mô tả mối quan hệ giữa

Biểu đồ chấm điểm thể hiện vòng

bụng (X) và độ dày mỡ bụng (Y) của

109 đàn ông

Giá trị độ dốc (với mỗi một cm vòng bụng tăng lên thì độ dày

mở bụng sẽ tăng 3,4557 cm2) Giá trị điểm cắt

Trang 19

4 Đánh giá đường hồi qui

• Phương pháp bình phương tối thiểu sẽ cho chúng ta đường hồi qui kể cả khi không có mối quan hệ tuyến tính giữa X và Y

• Chúng ta cần phải đánh giá xem đường hồi qui có phải là tốt nhất hay không?

• Chúng ta đánh giá độ dốc (slope) của đường hồi qui

Trang 20

4 Đánh giá đường hồi qui

Có mối quan hệ tuyến tính (độ dốc khác 0)

Không có mối quan hệ tuyến tính,

hoặc mối quan hệ chưa đủ mạnh

(độ dốc bằng 0)

độ dốc (slope) của đường hồi qui.

Trang 21

4 Đánh giá đường hồi qui

s s

i b

)

( 2

1

x x b

y

y n

Kiểm định giả thuyết H0: b =0 với kiểm định t

Trang 22

4 Đánh giá đường hồi qui

tính giữa giữa vòng bụng và độ dày mỡ bụng, sử dụng  = 5%

Bác bỏ giả thuyết H0 vì giá trị 14,6723 > 1,9824

+Kết luận: giá trị độ dốc của đường hồi quy khác 0 và

phương trình hồi quy này đã mô tả tốt mối liên quan giữa biến X và Y

+Phiên giải kết quả: Mô hình hồi qui có thể giúp ước lượng tốt lớp mỡ bụng thông qua chỉ số vòng bụng

6723 ,

14 2355

, 0

0 4557

Trang 23

4 Đánh giá đường hồi qui

Trang 24

4 Đánh giá đường hồi qui

Để đo lường độ mạnh của mối quan hệ tuyến tính chúng ta dùng hệ số xác định

SST

SSR y

) (

) ˆ

(

Hệ số xác định

Trang 25

Hệ số xác định

• Sự biến thiên của các giá trị quan sát và giá trị trung bình:

Tổng biến thiên của Y (SST)

Mô hình hồi qui (SSR)

Sai số (SSE)

Trang 26

( ( yˆ1 y )2  ( yˆ2  y )2 2

2 2

2 1

y (   

Tổng biến thiên y = Biến thiên lý giải bằng

đường hồi qui + Phần chưa lý giải (sai số)

biến thiên của y = SSR + SSE

Trang 27

Hệ số xác định

• R2 đo lường tỷ lệ biến thiên của y được lý giải bằng

sự biến thiên của x

n

x x

b y

y

SSR R

i i

i i

i

2 2

2 2

2

2

2

) (

)

( (

) (

Trang 28

Ví dụ

SUMMARY OUTPUT

Regression Statistics

Multiple R 0.5813

R Square 0.3379

Adjusted R Square 0.3011

Standard Error 0.5892

Observations 20

ANOVA

df SS MS F Sig F

Regression 1 3.1894 3.1894 9.1865 0.0072

Residual 18 6.2493 0.3472

Total 19 9.4387

Coef SE t Stat P-value Lower 95% Upper 95%

Intercept -8.4465 4.0611 -2.0798 0.0521 -16.9786 0.0856

X Variable 1 0.0744 0.0245 3.0309 0.0072 0.0228 0.1260

Hệ số xác định=0,3379, nghĩa

là chỉ có 33,8% biến thiên của FEV được lý giải bằng sự biến thiên của chiều cao (mô hình chưa phải là mô hình tốt)

Trang 29

Sử dụng đường hồi qui

• Nếu mô hình hồi quy là mô tả tốt cho mối quan hệ giữa hai biến chúng ta có thể

dùng mô hình đó để dự đóan giá trị của y:

– Ước lượng điểm

– Ước lượng khỏang

Trang 30

Ước lượng điểm

Trang 31

Ước lượng khoảng

• Hai giá trị khỏang:

– Ước lượng khỏang giá trị của y với một giá trị của

)(

)(

11

ˆ

x x

x x

n

s t

y

i

p x

) (

) (

1 ˆ

x x

x x

n

s t

y

i

p x

y

Trang 32

Kiểm định F cho mô hình hồi quy

Giả thuyết thống kê H0: b = 0 và H1: b ≠ 0 (or < 0,or > 0)

Trang 33

Hệ số tương quan

• Hệ số tương quan (Coefficient of correlation)

được sử dụng để đo lường độ lớn của mối quan

hệ giữa hai biến số

Trang 35

– nếu r = 0 không có mối tương quan

y

n x

x

b r

i

i i

/

/

2 2

2 2

2

Trang 36

Kiểm định giả thuyết cho r

• Giả thuyết

H0:  = 0 (không liên quan)

H1:   0 (có mối quan hệ tuyến tính)

• Kiểm định

2

2

r t

r n

Trang 37

Ví dụ

• Hệ số tương quan giữa

FEV và chiều cao

20 / ) 6 , 3307 (

2 , 547587 )

0744 ,

0 (

2

2 2

2 20

58 , 0 1

0 58 , 0

Trang 38

Mô hình tuyến tính – không tuyến tính

Không tuyến tính, hồi quy bội Tuyến tính

Trang 39

Hồi quy đa biến

Trang 40

Tóm tắt

thuận/nghịch, mạnh yếu

• Biểu đồ chấm điểm:

Dự đoán: X tăng 1-> Y tăng b

Hệ số xác định: -> X chi phối ?% đến Y

Trang 41

Sử dụng SPPP

• Hệ số tương quan:

Analyze\Correlate\Bivariate:

• Biểu đồ chấm điểm:

• Mô hình hồi quy tuyến tính:

Analyze\Regression\Linear

Ngày đăng: 08/06/2020, 15:56

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm