1. Trang chủ
  2. » Kinh Tế - Quản Lý

chuong 2 hoi quy tuyen tinh

24 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Chương 2 Hồi quy Tuyến tính
Trường học Trường Đại Học Khoa Học Tự Nhiên Hà Nội
Chuyên ngành Kinh tế học
Thể loại Giáo trình
Năm xuất bản 2014
Thành phố Hà Nội
Định dạng
Số trang 24
Dung lượng 2 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

rrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrr

Trang 1

Chương 2:Phân tích mô hình hồi qui

tuyến tính đa biến

Mô hình hồi qui hai biến

lượng

2

Khái niệm về phân tích hồi quy

Phân tích hồi quy đề cập đến việc nghiên

cứu sự phụ thuộc của một biến số, biến

phụ thuộc, vào một hay nhiều biến số khác,

biến độc lập, với ý định ước lượng và/hoặc

dự đoán giá trị trung bình (tổng thể) của

biến phụ thuộc dựa trên những giá trị đã

biết hay cố định của biến độc lập

Ví dụ

chiều cao trung bình của những người

con khi biết chiều cao của người cha

phân phối chiều cao của những người

con trong một tổng thể tương ứng với

chiều cao của những người cha được

Trang 2

Hình 1.1 Phân phối giả thiết của chiều cao của những người con

trai tương ứng với chiều cao của người cha được cho trước

Giá trị trung bình

5

Mô hình hồi qui hai biến

Hàm hồi qui tổng thể (population regression

function – PRF) có dạng:

E(Y|Xi) = f (Xi)

Nếu PRF có 1 biến độc lập thì được gọi là

hàm hồi qui đơn (hồi qui hai biến), nếu có từ

2 biến độc lập trở lên được gọi là hàm hồi qui

bội

Hàm hồi qui tổng thể cho biết giá trị trung

bình của biến Y sẽ thay đổi như thế nào khi

biến X nhận các giá trị khác nhau.

Trang 3

Một ví dụ giả thiết

X  thì Y 

đường hồi quy tổng thể, biểu diễn sự

hồi quy của Y vào X

tổng thể là quỹ tích các giá trị trung bình

có điều kiện của biến phụ thuộc ứng với

mỗi giá trị cố định của biến giải thích

Trang 4

Mô hình hồi quy tuyến tính

Vậy kỳ vọng có điều kiện E(Y|Xi) là một

hàm số của Xi:

E(Y|Xi) = f (Xi)

quan hệ kinh tế (thường được xác định dựa

vào các lý thuyết kinh tế)

Hàm hồi quy tuyến tính: hàm số f (X) có

dạng hàm số bậc nhất

11

Mô hình hồi qui hai biến

hai nghĩa: tuyến tính đối với tham số và

tuyến tính đối với biến

- Tuyến tính đối với tham số: E(Y|Xi) = β1 +β2Xi2

- Tuyến tính đối với biến số: E(Y|Xi) = β1 +β2Xi.

Chỉ phân tích hàm hồi qui tuyến tính đối với

tham số!!!

12

Các hàm số tuyến tính đối với tham số

Trang 5

i i

Y0 12 

i i i

u X Y

1 0

1

i i i

z x

y 1 

14

Mô hình hồi qui hai biến

E(Y|Xi) = β1+β2Xi

trong đó β1, β2là các tham số chưa biết nhưng

cố định – các tham số hồi qui.

biến phụ thuộc Y khi biến X nhận giá trị 0.

góc, cho biết giá trị trung bình của biến phụ thuộc

Y sẽ thay đổi (tăng or giảm) bao nhiêu đơn vị khi

giá trị của biến độc lập X tăng 1 đơn vị với điều

kiện các yếu tố khác không thay đổi.

z x

y 1 

i i i

i i i

i i

Trang 6

Mô hình hồi qui hai biến

Ứng với mỗi giá trị của X, giá trị Y của một số

quan sát có độ lệchso với giá trị kỳ vọng.

Giá trị quan sát thứ i của biến phụ thuộc Y

được ký hiệu làYi.

- Ký hiệu uilà chênh lệch giữa Yivà E(Y|Xi)

ui= Yi- E(Y|Xi)

 Yi= E(Y|Xi) + ui(dạng ngẫu nhiên PRF)

uiđgl đại lượng ngẫu nhiên hay sai số ngẫu

nhiên, hay phần nhiễu, phần dư ngẫu nhiên.

17

Mô hình hồi qui hai biến

Tại sao mỗi quan sát có một sai số so

với E(Y|X)???

Lý do cho sự tồn tại của ui

đưa vào mô hình:

biến không rõ, không có số liệu,

ảnh hưởng quá nhỏ,

mô hình tiết kiệm, dùng dạng sai, …

18

Mô hình hồi qui hai biến

số liệu tổng thể

 Không tìm được hàm PRF,

 Phải dựa trên hệ số hồi quy của mẫu để

suy diễn cho hệ số của PRF.

Hàm hồi qui mẫu (sample regression

function – SRF): được xác định từ số

liệu các mẫu được rút ra từ tổng thể

Trang 7

trong đó là ước lượng điểm của E(Y|X i)

là ước lượng điểm của β1;

là ước lượng điểm của β2;

20

Hàm hồi qui mẫu

Do Ŷilà ước lượng của E(Yi|Xi) nên nó

có một chênh lệch ûi với Yi, hay:

Yi= Ŷi+ ûi

(ûicòn được ký hiệu là ei: là ước lượng

ngẫu nhiên)

i i

 2

Hàm hồi qui mẫu

Do , là các ước lượng của β1và β2

nên:

đường hồi quy tổng thể

chênh lệch với giá trị tổng thể

Trang 8

Hàm hồi qui mẫu

(underestimate) giá trị thực của tổng thể

i i i

i i i i i

X Y

Yˆ Y e

e Yˆ e X Y

2 1

Trang 9

Phương pháp bình phương nhỏ nhất (OLS)

Tiêu chuẩn 2 : tìm các sao cho ei2

Trang 10

Phương pháp OLS

không tồn tại trong trường hợp

I Ứng với 1 mẫu cho trước, ước lượng OLS là duy nhất.

II Các ước lượng OLS là các ước lượng điểm, có nghĩa là,

với mẫu cho trước, mỗi ước lượng chỉ cho biết duy nhất

một giá trị của tham số của tổng thể nghiên cứu.

III Một khi thu được các ước lượng từ mẫu, ta có thể vẽ

được đường hồi quy mẫu và đường này có những đặc

tính sau:

30

Đặc điểm của đường hồi quy mẫu

1 Nó đi qua giá trị trung bình mẫu của X và Y,

do

Trang 11

Đặc điểm của đường hồi quy mẫu

2 Giá trị ước lượng trung bình của Y bằng với giá

trị trung bình của Y quan sát.

3 Giá trị trung bình của sai số ei bằng 0: e i = 0.

4 Sai số eikhông có tương quan với giá trị dự

i ˆ ˆ X ˆ X e

Y12 23 3

3 3 2 2 1 2

e imin Y iˆˆ X iˆ X i

Độ chính xác hay sai số chuẩn của các

ước lượng OLS

vào số liệu của mẫu Số liệu giữa các mẫu

khác nhau lại khác nhau => cần đo lường

độ chính xác của các ước lượng

Trang 12

Phương sai và Sai số chuẩn của các ước lượng

OLS trong mô hình 2 biến

Trong đó:

var: phương sai;

se: sai số chuẩn và

 2 : phương sai của sai số, c ó

thể được ước lượng bằng công thức:

2

2 2

 2   2  2  2 2

i i i i

i ( Y Yˆ ) y ˆ x

35

Phương sai và Sai số chuẩn của các

ước lượng OLS trong mô hình 2 biến

•Độ lệch giữa giá trị Y so với

đường hồi quy

Độ tin cậy của mô hình

(goodness of fit)

36

Phương sai và Sai số chuẩn của các

ước lượng OLS trong mô hình 3 biến

3

2 2

Trang 13

Một số đặc điểm của phương sai hay se

của các ước lượng OLS

1 Phương sai của ước lượng 2tỷ lệ với 2

nhưng nghịch biến với xi2 Do vậy, X biến

động càng lớn, se càng nhỏ => ước lượng

càng chính xác; n càng lớn, càng chính

xác

2 Phương sai của ước lượng 1tỷ lệ với 2

và Xi2, nhưng nghịch biến với xi2và cở

mẫu

38

Hệ số xác định R2: một thước đo Độ tin

cậy của mô hình

TSS

RSS TSS

ESS

R2  1 

Hệ số xác định R2

bởi các biến số X trong mô hình.

 0 < R 2 < 1

biến động của Y  mô hình càng đáng tin cậy.

số biến X đưa vào mô hình tăng, bất chấp biến

đưa vào không có liên quan.

Trang 14

Hệ số xác định điều chỉnhR2

k n

n ) R ( R

• Khi k > 1, R 2 < R 2 Do vậy, khi số biến X

tăng,R 2 sẽ tăng ít hơn R 2

• Khi đưa thêm biến vào mô hình mà làm

choR 2 tăng thì nên đưa biến vào và ngược

lại

41

Giả định của mô hình hồi qui đa biến

(linear in parameters)

(2)Giả định 2: Các giá trị mẫu của Xjđược ước

lượng đúng, không có sai số (random

sampling): Giá trị các biến giải thích là các

số đã được xác định

của các sai số là bằng 0 (zero conditional

mean)

E(u|xi) = 0

42

Giả định 3: E(ui|xi) = 0

Trang 15

Giả định của mô hình hồi qui đa biến

(4) Giả định 4: Các sai số u độc lập với biến

giải thích Cov(ui, Xi) = 0

(5) Giả định 5: Các sai số uicó phương sai bằng

nhau (homoscedasticity) ở tất cả các giá trị

Trang 16

Giả định của mô hình hồi qui đa biến

(6) Giả định 6: Các sai số u từng cặp độc lập với nhau

Cov(ui, ui’) = E(uiui’) = 0, nếu i  i’

47

Giả định của mô hình hồi qui đa biến

(7) Giả định: Không có biến độc lập nào là hằng số,

và không tồn tại các mối liên hệ tuyến tính hoàn

toàn chính xác giữa các biến độc lập (no perfect

multicollinearity).

(8) Số quan sát n phải lớn hơn số biến độc lập.

(9) Mô hình hồi quy được xác định đúng đắn: không

có sai lệch về dạng mô hình.

48

Sai lệch về dạng mô hình

Trang 17

Định lý Gauss-Markov

 Một ước lượng được gọi là “ước lượng không chệch tuyến

tính tốt nhất” (BLUE) nếu thỏa các điều kiện:

Nó là tuyến tính, có nghĩa ilà một hàm tuyến tính của một

biến ngẫu nhiên, chẳng hạn như Y.

 Nó không chệch,

 Nó có phương sai nhỏ nhất, hay còn gọi là ước lượng hiệu quả

(efficient estimator).

Định lý: Với những giả định của mô hình hồi quy cổ điển,

các ước lượng bình phương bé nhất có phương sai nhỏ

nhất, trong nhóm những ước lượng tuyến tính không chệch,

i i

i i

i

i

i

i i i i

i i

X X Y x Y x x

X X

Y Y

2 2

2

2 2

x

x k

Trang 18

i i i i i

i i i

i i

u k

u k X k k

u X k

Y k ˆ

2

2 1

2 1 2

u u k u k

ˆ

E

ˆ E

1 2 1 2 2 2

2

2

2

2 2

2

2

2 2 2

i i x k ˆ

Kiểm định giả thuyết mô hình

 Tại sao lại cần kiểm định một khi đã tìm

được các ???

 được tính từ mẫu,

 Mỗi mẫu có thể cho các khác nhau,

 Cần xây dựng khoảng tin cậy chocủa

Trang 19

Kiểm định giả thuyết mô hình

 CLRM còn giả định uitheo phân phối chuẩn:

ui~ N(0, 2)  Yi~ N(1 + 2Xi, 2 ).

Do uitheo phân phối chuẩn, các ước lượng

OLS của1và2cũng theo phân phối

chuẩn vì chúng là các hàm số tuyến tính của

1 Xây dựng khoảng tin cậy của  1 và  2

Khoảng tin cậy của  2

 Biến t sẽ theo phân phối t với bậc tự do n – k (số

tham số được ước lượng kể cả hệ số tự do).

 Khoảng tin cậy từ phân phối t:

Trang 20

Kiểm định 2 đuôi

H0: K= 0và H1: K 0

tin cậy 100(1-) cho 2

 Nếu giá trị 2nằm trong khoảng tin cậy

này, ta chấp nhận H0,

 Nếu nó nằm ngoài, ta bác bỏ H0.

Hay so sánh |t | với t /2, n - k

59

Kiểm định giả thuyết mô hình

1 Kiểm định giả thuyết về từng phần tử của 

) k n ( k

k ~ t ) ˆ ( se

Trang 21

Kiểm định giả thuyết mô hình

2 Kiểm định ảnh hưởng tất cả các biến độc lập

cùng lúc

Giả thuyết của kiểm định này là:

H0:  2 =  3 = =  k = 0

RSS k n k

 Bác bỏ H0khi F > F(k-1, n-k),, nghĩa là có ít nhất một tham

số khác 0 ; hoặc là có ít nhất một biến có ảnh hưởng

/ 0 2

1

) ( 1 )

ˆ

ˆ

i o

x x X n s t X

Cho trước 1 giá trị X0, ta có thể dùng mô hình hồi

quy để dự báo giá trị Y ứng với một mức tin cậy

 nào đó Công thức:

s: sai số chuẩn của ước lượng

2 2

Ví dụ: Có bộ số liệu về chi tiêu và thu nhập của

hộ gia đình ở VN 1998 như sau:

Ta cần kiểm định mối quan hệ giữa mức chi tiêu của hộ gia

Variable Obs Mean Std.Dev Min Max Label

Totalexp 5999 14178.5 11859.6 678.37 219548 total expenditures

rincome 5999 15274 18534.7 -29524.4 445334 Real Total Income

hhsize 5999 4.77196 1.9651 1 19 Household size

dur_asset5999 1841.79 3211.03 0 81398.3 Consumer durable

Trang 22

Kết quả ước lượng mô hình hồi quy

reg totalexp rincome hhsize dur_asset

Source | SS df MS Number of obs = 5999

-+ - F( 3, 5995) = 4687.88 Model | 5.9149e+11 3 1.9716e+11 Prob > F = 0.0000 Residual | 2.5214e+11 5995 42057950.5 R-squared = 0.7011 -+ - Adj R-squared = 0.7010 Total | 8.4362e+11 5998 140651047 Root MSE = 6485.2

-totalexp | Coef Std Err t P>|t| [95% Conf Interval]

-+ -rincome | 0.1632861 .0058562 27.88 0.000 1518057 .1747664

hhsize | 1142.227 43.80872 26.07 0.000 1056.346 1228.107 dur_asset | 2.237371 0330819 67.63 0.000 2.172518 2.302224 _cons | 2113.036 221.9352 9.52 0.000 1677.963 2548.109

-65 Trình bày Kết quả asset dur hhsize rincome p totalex  2113  0 , 163  1 142  2 , 237 _  se (222) (0,006) (20,222) (0,033) t 9,52 *** 27,88 *** 43,81 *** 67, 63 *** N = 5999 R 2 = 0,70 Dạng phương trình: 66 Trình bày Kết quả Dạng bảng:

-Mô hình totalexp t

-rincome 0.163*** (27.88) hhsize 1142.2*** (26.07) dur_aaset 2.237*** (67.63) Hằng số 2113.0*** (9.52)

-Số quan sát 5999

R2 0.701

-* p<0.05, -* -* p<0.01, -* -* -* p<0.001

Trang 23

Trình bày và giải thích Kết quả

Các biến độc lập trong mô hình giải thích

70% sự biến động trong chi tiêu của hộ

có ý nghĩa thống kê, chứng tỏ các biến độc

lập đều có ảnh hưởng đến chi tiêu

Khi thu nhập tăng thêm 1 đồng, chi tiêu

bình quân tăng 0,163 đồng, trong điều kiện

các yếu tố khác không đổi.

Ý nghĩa của các hệ số ước lượng của biến

hhsize và dur_aaset???

Câu hỏi và bài tập

1 Gọi kids và educ lần lượt là số con và số

năm học của những người phụ nữ Giả sử

ta thực hiện mô hình hồi quy đơn giản sau:

kids = 0+ 1educ + u,

a u có thể bao gồm có yếu tố nào, chúng có

tương quan với educ không?

b Mô hình trên có thể biểu diễn tác động của

educ lên kids trong điều kiện các yếu tố

không đổi không?

68

Câu hỏi và bài tập

vào (dv) và điểm trung bình tích lũy (dtb)

của 8 sinh viên

a Ước lượng mô hình: dtb = 0+ 1dv + u bằng

OLS Hằng số trong mô hình này có ý nghĩa

dv 21 24 26 27 29 25 25 30

dtb 2.8 3.4 3.0 3.5 3.6 3.0 2.7 3.7

Trang 24

Câu hỏi và bài tập

b Tính giá trị dự báo và sai số cho từng quan

sát và chứng tỏ tổng các sai số = 0

c Tính giá trị dự báo khi dv = 20.

d Dv giải thích bao nhiêu % sự biến động của

dtb đối với số liệu của mẫu này?

e Thực hiện các kiểm định t và F về hệ số hồi

quy của các biến độc lập

70

Câu hỏi và bài tập

3 Giải thích các phát biểu sau đây đúng, sai

hay không chắc chắn

a Do hệ số tương quan giữa X và Y nằm trong

khoảng [-1;1], hiệp phương sai giữa chúng,

cov(X,Y) cũng nằm trong khoảng này.

b Nếu hệ số tương quan giữa 2 biến số = 0, có

nghĩa là không có mối quan hệ nào giữa 2

biến này.

c Nếu ta hồi quy giữa Y với Ŷ, hệ số tự do và hệ

số góc lần lượt là 0 và 1.

71

Ngày đăng: 28/04/2023, 14:09

🧩 Sản phẩm bạn có thể quan tâm