rrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrr
Trang 1Chương 2:Phân tích mô hình hồi qui
tuyến tính đa biến
Mô hình hồi qui hai biến
lượng
2
Khái niệm về phân tích hồi quy
Phân tích hồi quy đề cập đến việc nghiên
cứu sự phụ thuộc của một biến số, biến
phụ thuộc, vào một hay nhiều biến số khác,
biến độc lập, với ý định ước lượng và/hoặc
dự đoán giá trị trung bình (tổng thể) của
biến phụ thuộc dựa trên những giá trị đã
biết hay cố định của biến độc lập
Ví dụ
chiều cao trung bình của những người
con khi biết chiều cao của người cha
phân phối chiều cao của những người
con trong một tổng thể tương ứng với
chiều cao của những người cha được
Trang 2Hình 1.1 Phân phối giả thiết của chiều cao của những người con
trai tương ứng với chiều cao của người cha được cho trước
Giá trị trung bình
5
Mô hình hồi qui hai biến
Hàm hồi qui tổng thể (population regression
function – PRF) có dạng:
E(Y|Xi) = f (Xi)
Nếu PRF có 1 biến độc lập thì được gọi là
hàm hồi qui đơn (hồi qui hai biến), nếu có từ
2 biến độc lập trở lên được gọi là hàm hồi qui
bội
Hàm hồi qui tổng thể cho biết giá trị trung
bình của biến Y sẽ thay đổi như thế nào khi
biến X nhận các giá trị khác nhau.
Trang 3Một ví dụ giả thiết
X thì Y
là đường hồi quy tổng thể, biểu diễn sự
hồi quy của Y vào X
tổng thể là quỹ tích các giá trị trung bình
có điều kiện của biến phụ thuộc ứng với
mỗi giá trị cố định của biến giải thích
Trang 4Mô hình hồi quy tuyến tính
Vậy kỳ vọng có điều kiện E(Y|Xi) là một
hàm số của Xi:
E(Y|Xi) = f (Xi)
quan hệ kinh tế (thường được xác định dựa
vào các lý thuyết kinh tế)
Hàm hồi quy tuyến tính: hàm số f (X) có
dạng hàm số bậc nhất
11
Mô hình hồi qui hai biến
hai nghĩa: tuyến tính đối với tham số và
tuyến tính đối với biến
- Tuyến tính đối với tham số: E(Y|Xi) = β1 +β2Xi2
- Tuyến tính đối với biến số: E(Y|Xi) = β1 +β2Xi.
Chỉ phân tích hàm hồi qui tuyến tính đối với
tham số!!!
12
Các hàm số tuyến tính đối với tham số
Trang 5i i
Y 0 12
i i i
u X Y
1 0
1
i i i
z x
y 1
14
Mô hình hồi qui hai biến
E(Y|Xi) = β1+β2Xi
trong đó β1, β2là các tham số chưa biết nhưng
cố định – các tham số hồi qui.
biến phụ thuộc Y khi biến X nhận giá trị 0.
góc, cho biết giá trị trung bình của biến phụ thuộc
Y sẽ thay đổi (tăng or giảm) bao nhiêu đơn vị khi
giá trị của biến độc lập X tăng 1 đơn vị với điều
kiện các yếu tố khác không thay đổi.
z x
y 1
i i i
i i i
i i
Trang 6Mô hình hồi qui hai biến
Ứng với mỗi giá trị của X, giá trị Y của một số
quan sát có độ lệchso với giá trị kỳ vọng.
Giá trị quan sát thứ i của biến phụ thuộc Y
được ký hiệu làYi.
- Ký hiệu uilà chênh lệch giữa Yivà E(Y|Xi)
ui= Yi- E(Y|Xi)
Yi= E(Y|Xi) + ui(dạng ngẫu nhiên PRF)
uiđgl đại lượng ngẫu nhiên hay sai số ngẫu
nhiên, hay phần nhiễu, phần dư ngẫu nhiên.
17
Mô hình hồi qui hai biến
Tại sao mỗi quan sát có một sai số so
với E(Y|X)???
Lý do cho sự tồn tại của ui
đưa vào mô hình:
biến không rõ, không có số liệu,
ảnh hưởng quá nhỏ,
mô hình tiết kiệm, dùng dạng sai, …
18
Mô hình hồi qui hai biến
số liệu tổng thể
Không tìm được hàm PRF,
Phải dựa trên hệ số hồi quy của mẫu để
suy diễn cho hệ số của PRF.
Hàm hồi qui mẫu (sample regression
function – SRF): được xác định từ số
liệu các mẫu được rút ra từ tổng thể
Trang 7trong đó là ước lượng điểm của E(Y|X i)
là ước lượng điểm của β1;
là ước lượng điểm của β2;
20
Hàm hồi qui mẫu
Do Ŷilà ước lượng của E(Yi|Xi) nên nó
có một chênh lệch ûi với Yi, hay:
Yi= Ŷi+ ûi
(ûicòn được ký hiệu là ei: là ước lượng
ngẫu nhiên)
i i
2
Hàm hồi qui mẫu
Do , là các ước lượng của β1và β2
nên:
đường hồi quy tổng thể
chênh lệch với giá trị tổng thể
Trang 8Hàm hồi qui mẫu
(underestimate) giá trị thực của tổng thể
i i i
i i i i i
X Y
Yˆ Y e
e Yˆ e X Y
2 1
Trang 9Phương pháp bình phương nhỏ nhất (OLS)
Tiêu chuẩn 2 : tìm các sao cho ei2
Trang 10Phương pháp OLS
không tồn tại trong trường hợp
I Ứng với 1 mẫu cho trước, ước lượng OLS là duy nhất.
II Các ước lượng OLS là các ước lượng điểm, có nghĩa là,
với mẫu cho trước, mỗi ước lượng chỉ cho biết duy nhất
một giá trị của tham số của tổng thể nghiên cứu.
III Một khi thu được các ước lượng từ mẫu, ta có thể vẽ
được đường hồi quy mẫu và đường này có những đặc
tính sau:
30
Đặc điểm của đường hồi quy mẫu
1 Nó đi qua giá trị trung bình mẫu của X và Y,
do
Trang 11Đặc điểm của đường hồi quy mẫu
2 Giá trị ước lượng trung bình của Y bằng với giá
trị trung bình của Y quan sát.
3 Giá trị trung bình của sai số ei bằng 0: e i = 0.
4 Sai số eikhông có tương quan với giá trị dự
i ˆ ˆ X ˆ X e
Y12 23 3
3 3 2 2 1 2
e imin Y iˆˆ X iˆ X i
Độ chính xác hay sai số chuẩn của các
ước lượng OLS
vào số liệu của mẫu Số liệu giữa các mẫu
khác nhau lại khác nhau => cần đo lường
độ chính xác của các ước lượng
Trang 12Phương sai và Sai số chuẩn của các ước lượng
OLS trong mô hình 2 biến
Trong đó:
var: phương sai;
se: sai số chuẩn và
2 : phương sai của sai số, c ó
thể được ước lượng bằng công thức:
2
2 2
2 2 2 2 2
i i i i
i ( Y Yˆ ) y ˆ x
35
Phương sai và Sai số chuẩn của các
ước lượng OLS trong mô hình 2 biến
•Độ lệch giữa giá trị Y so với
đường hồi quy
• Độ tin cậy của mô hình”
(goodness of fit)
36
Phương sai và Sai số chuẩn của các
ước lượng OLS trong mô hình 3 biến
3
2 2
Trang 13Một số đặc điểm của phương sai hay se
của các ước lượng OLS
1 Phương sai của ước lượng 2tỷ lệ với 2
nhưng nghịch biến với xi2 Do vậy, X biến
động càng lớn, se càng nhỏ => ước lượng
càng chính xác; n càng lớn, càng chính
xác
2 Phương sai của ước lượng 1tỷ lệ với 2
và Xi2, nhưng nghịch biến với xi2và cở
mẫu
38
Hệ số xác định R2: một thước đo Độ tin
cậy của mô hình
TSS
RSS TSS
ESS
R2 1
Hệ số xác định R2
bởi các biến số X trong mô hình.
0 < R 2 < 1
biến động của Y mô hình càng đáng tin cậy.
số biến X đưa vào mô hình tăng, bất chấp biến
đưa vào không có liên quan.
Trang 14Hệ số xác định điều chỉnhR2
k n
n ) R ( R
• Khi k > 1, R 2 < R 2 Do vậy, khi số biến X
tăng,R 2 sẽ tăng ít hơn R 2
• Khi đưa thêm biến vào mô hình mà làm
choR 2 tăng thì nên đưa biến vào và ngược
lại
41
Giả định của mô hình hồi qui đa biến
(linear in parameters)
(2)Giả định 2: Các giá trị mẫu của Xjđược ước
lượng đúng, không có sai số (random
sampling): Giá trị các biến giải thích là các
số đã được xác định
của các sai số là bằng 0 (zero conditional
mean)
E(u|xi) = 0
42
Giả định 3: E(ui|xi) = 0
Trang 15Giả định của mô hình hồi qui đa biến
(4) Giả định 4: Các sai số u độc lập với biến
giải thích Cov(ui, Xi) = 0
(5) Giả định 5: Các sai số uicó phương sai bằng
nhau (homoscedasticity) ở tất cả các giá trị
Trang 16Giả định của mô hình hồi qui đa biến
(6) Giả định 6: Các sai số u từng cặp độc lập với nhau
Cov(ui, ui’) = E(uiui’) = 0, nếu i i’
47
Giả định của mô hình hồi qui đa biến
(7) Giả định: Không có biến độc lập nào là hằng số,
và không tồn tại các mối liên hệ tuyến tính hoàn
toàn chính xác giữa các biến độc lập (no perfect
multicollinearity).
(8) Số quan sát n phải lớn hơn số biến độc lập.
(9) Mô hình hồi quy được xác định đúng đắn: không
có sai lệch về dạng mô hình.
48
Sai lệch về dạng mô hình
Trang 17Định lý Gauss-Markov
Một ước lượng được gọi là “ước lượng không chệch tuyến
tính tốt nhất” (BLUE) nếu thỏa các điều kiện:
Nó là tuyến tính, có nghĩa ilà một hàm tuyến tính của một
biến ngẫu nhiên, chẳng hạn như Y.
Nó không chệch,
Nó có phương sai nhỏ nhất, hay còn gọi là ước lượng hiệu quả
(efficient estimator).
Định lý: Với những giả định của mô hình hồi quy cổ điển,
các ước lượng bình phương bé nhất có phương sai nhỏ
nhất, trong nhóm những ước lượng tuyến tính không chệch,
i i
i i
i
i
i
i i i i
i i
X X Y x Y x x
X X
Y Y
2 2
2
2 2
x
x k
Trang 18i i i i i
i i i
i i
u k
u k X k k
u X k
Y k ˆ
2
2 1
2 1 2
u u k u k
ˆ
E
ˆ E
1 2 1 2 2 2
2
2
2
2 2
2
2
2 2 2
i i x k ˆ
Kiểm định giả thuyết mô hình
Tại sao lại cần kiểm định một khi đã tìm
được các ???
được tính từ mẫu,
Mỗi mẫu có thể cho các khác nhau,
Cần xây dựng khoảng tin cậy chocủa
Trang 19Kiểm định giả thuyết mô hình
CLRM còn giả định uitheo phân phối chuẩn:
ui~ N(0, 2) Yi~ N(1 + 2Xi, 2 ).
Do uitheo phân phối chuẩn, các ước lượng
OLS của1và2cũng theo phân phối
chuẩn vì chúng là các hàm số tuyến tính của
1 Xây dựng khoảng tin cậy của 1 và 2
Khoảng tin cậy của 2
Biến t sẽ theo phân phối t với bậc tự do n – k (số
tham số được ước lượng kể cả hệ số tự do).
Khoảng tin cậy từ phân phối t:
Trang 20Kiểm định 2 đuôi
H0: K= 0và H1: K 0
tin cậy 100(1-) cho 2
Nếu giá trị 2nằm trong khoảng tin cậy
này, ta chấp nhận H0,
Nếu nó nằm ngoài, ta bác bỏ H0.
Hay so sánh |t | với t /2, n - k
59
Kiểm định giả thuyết mô hình
1 Kiểm định giả thuyết về từng phần tử của
) k n ( k
k ~ t ) ˆ ( se
Trang 21Kiểm định giả thuyết mô hình
2 Kiểm định ảnh hưởng tất cả các biến độc lập
cùng lúc
Giả thuyết của kiểm định này là:
H0: 2 = 3 = = k = 0
RSS k n k
Bác bỏ H0khi F > F(k-1, n-k),, nghĩa là có ít nhất một tham
số khác 0 ; hoặc là có ít nhất một biến có ảnh hưởng
/ 0 2
1
) ( 1 )
ˆ
ˆ
i o
x x X n s t X
Cho trước 1 giá trị X0, ta có thể dùng mô hình hồi
quy để dự báo giá trị Y ứng với một mức tin cậy
nào đó Công thức:
s: sai số chuẩn của ước lượng
2 2
Ví dụ: Có bộ số liệu về chi tiêu và thu nhập của
hộ gia đình ở VN 1998 như sau:
Ta cần kiểm định mối quan hệ giữa mức chi tiêu của hộ gia
Variable Obs Mean Std.Dev Min Max Label
Totalexp 5999 14178.5 11859.6 678.37 219548 total expenditures
rincome 5999 15274 18534.7 -29524.4 445334 Real Total Income
hhsize 5999 4.77196 1.9651 1 19 Household size
dur_asset5999 1841.79 3211.03 0 81398.3 Consumer durable
Trang 22Kết quả ước lượng mô hình hồi quy
reg totalexp rincome hhsize dur_asset
Source | SS df MS Number of obs = 5999
-+ - F( 3, 5995) = 4687.88 Model | 5.9149e+11 3 1.9716e+11 Prob > F = 0.0000 Residual | 2.5214e+11 5995 42057950.5 R-squared = 0.7011 -+ - Adj R-squared = 0.7010 Total | 8.4362e+11 5998 140651047 Root MSE = 6485.2
-totalexp | Coef Std Err t P>|t| [95% Conf Interval]
-+ -rincome | 0.1632861 .0058562 27.88 0.000 1518057 .1747664
hhsize | 1142.227 43.80872 26.07 0.000 1056.346 1228.107 dur_asset | 2.237371 0330819 67.63 0.000 2.172518 2.302224 _cons | 2113.036 221.9352 9.52 0.000 1677.963 2548.109
-65 Trình bày Kết quả asset dur hhsize rincome p totalex 2113 0 , 163 1 142 2 , 237 _ se (222) (0,006) (20,222) (0,033) t 9,52 *** 27,88 *** 43,81 *** 67, 63 *** N = 5999 R 2 = 0,70 Dạng phương trình: 66 Trình bày Kết quả Dạng bảng:
-Mô hình totalexp t
-rincome 0.163*** (27.88) hhsize 1142.2*** (26.07) dur_aaset 2.237*** (67.63) Hằng số 2113.0*** (9.52)
-Số quan sát 5999
R2 0.701
-* p<0.05, -* -* p<0.01, -* -* -* p<0.001
Trang 23Trình bày và giải thích Kết quả
Các biến độc lập trong mô hình giải thích
70% sự biến động trong chi tiêu của hộ
có ý nghĩa thống kê, chứng tỏ các biến độc
lập đều có ảnh hưởng đến chi tiêu
Khi thu nhập tăng thêm 1 đồng, chi tiêu
bình quân tăng 0,163 đồng, trong điều kiện
các yếu tố khác không đổi.
Ý nghĩa của các hệ số ước lượng của biến
hhsize và dur_aaset???
Câu hỏi và bài tập
1 Gọi kids và educ lần lượt là số con và số
năm học của những người phụ nữ Giả sử
ta thực hiện mô hình hồi quy đơn giản sau:
kids = 0+ 1educ + u,
a u có thể bao gồm có yếu tố nào, chúng có
tương quan với educ không?
b Mô hình trên có thể biểu diễn tác động của
educ lên kids trong điều kiện các yếu tố
không đổi không?
68
Câu hỏi và bài tập
vào (dv) và điểm trung bình tích lũy (dtb)
của 8 sinh viên
a Ước lượng mô hình: dtb = 0+ 1dv + u bằng
OLS Hằng số trong mô hình này có ý nghĩa
dv 21 24 26 27 29 25 25 30
dtb 2.8 3.4 3.0 3.5 3.6 3.0 2.7 3.7
Trang 24Câu hỏi và bài tập
b Tính giá trị dự báo và sai số cho từng quan
sát và chứng tỏ tổng các sai số = 0
c Tính giá trị dự báo khi dv = 20.
d Dv giải thích bao nhiêu % sự biến động của
dtb đối với số liệu của mẫu này?
e Thực hiện các kiểm định t và F về hệ số hồi
quy của các biến độc lập
70
Câu hỏi và bài tập
3 Giải thích các phát biểu sau đây đúng, sai
hay không chắc chắn
a Do hệ số tương quan giữa X và Y nằm trong
khoảng [-1;1], hiệp phương sai giữa chúng,
cov(X,Y) cũng nằm trong khoảng này.
b Nếu hệ số tương quan giữa 2 biến số = 0, có
nghĩa là không có mối quan hệ nào giữa 2
biến này.
c Nếu ta hồi quy giữa Y với Ŷ, hệ số tự do và hệ
số góc lần lượt là 0 và 1.
71