I Với các giả định 1-5, ước lượng của OLS là ước lượng tuyến tính, không chệch, và hiệu quả nhất (Best Linear Unbiased Estimator - BLUE). I Trong tất cả các ước lượng tuyến tính, OLS có [r]
Trang 1Hồi quy Đa biến
(Multivariate Regression)
Lê Việt PhúTrường Chính sách Công và Quản lý Fulbright
Ngày 11 tháng 12 năm 2017
Trang 2Hồi quy đơn biến - SLR
Mô hình hồi quy đơn biến với hai biến số x và y :
y = β0+ β1x + u
I y gọi là biến phụ thuộc/biến được giải thích
I x là biến độc lập/biến giải thích
I u là sai số, bao gồm tất cả những yếu tố khác ảnh hưởng đến
y nhưng không nằm trong x
I β0 và β1 là các tham số trong mô hình
Trang 3Hồi quy đa biến - MLR
Ví dụ mô hình hồi quy với hai biến giải thích:
y = β0+ β1x1+ β2x2+ u
I y gọi là biến phụ thuộc/biến được giải thích
I x1, x2 là biến độc lập/biến giải thích
I u là sai số, bao gồm tất cả những yếu tố khác ảnh hưởng đến
y nhưng không nằm trong x1, x2
I β0, β1, β2 là các tham số trong mô hình
Trang 4Phương pháp bình phương tối thiểu thông thường với hồi quy đa biến
I Tìm ˆβ0, ˆβ1, ˆβ2 để tối thiểu hóa tổng bình phương của sai số
với ký hiệu i đại diện cho quan sát thứ i
I βˆ1 và ˆβ2 là tác động riêng phần của các biến giải thích lên
biến phụ thuộc
2
Trang 5Điều kiện của ước lượng OLS
Tương tự như các điều kiện của mô hình SLR:
I Hai điều kiện bậc nhất tương ứng với E (u) = 0 và E (xu) = 0
sẽ đảm bảo ước lượng OLS là không chệch (unbiased) và nhấtquán (consistent)
I Diễn giải: trung bình của sai số u bằng không và sai số u
không tương quan với biến giải thích x
Trang 6Diễn giải ý nghĩa của hồi quy đa biến
Với hàm hồi quy mẫu:
ˆ
y = ˆβ0+ ˆβ1x1+ ˆβ2x2
I βˆ1 và ˆβ2 là tác động riêng phần của biến x1 và x2 lên biến
phụ thuộc, trong điều kiện các yếu tố khác không đổi
I y là giá trị thích hợp (hoặc giá trị dự báo) của biến phụ thuộcˆvới điều kiện x1 và x2 cho trước
I Phần dư là chênh lệch giữa giá trị thực tế và giá trị dự báo
của biến phụ thuộc, ˆu = y − ˆy
Trang 7Ví dụ 1: Ước lượng các nhân tố ảnh hưởng đến điểm GPA
Sử dụng bộ dữ liệu GPA1.dta
Trang 8Ví dụ 2: Ước lượng mô hình tiền lương
Sử dụng bộ dữ liệu WAGE1.dta
Trang 9Ví dụ 3: Ước lượng mô hình tiền lương với tác động phi tuyến của giáo dục
Sử dụng bộ dữ liệu WAGE1.dta
∆y
∆educ ≈ β1+ 2β2educ
Trang 10Những vấn đề cần lưu ý với hồi quy đa biến
I Chọn biến số đưa vào mô hình theo tiêu chí gì?
I Hậu quả gì nếu đưa biến không liên quan vào mô hình?
I Hậu quả gì nếu bỏ sót biến quan trọng trong mô hình?
Trang 11Các giả định đối với hồi quy đa biến
Tương tự như các điều kiện của hồi quy đơn biến:
1 Tuyến tính theo tham số
2 Chọn mẫu ngẫu nhiên
3 Không có cộng tuyến hoàn hảo
4 Trung bình có điều kiện của sai số bằng 0:
E (u|x1, , xk) = 0
⇒ Ước lượng của OLS là không chệch
E ( ˆβ) = β
Trang 12Chọn biến đưa vào mô hình
I R2 luôn luôn tăng khi đưa thêm biến vào mô hình, kể cả
những biến không liên quan
I Sử dụng R2-điều chỉnh, được tính bằng cách:
Radj2 = 1 −(1 − R
2)(n − 1)
n − k − 1với n và k là số quan sát và số biến trong mô hình
I Radj2 có thể tăng hoặc giảm khi đưa biến mới vào mô hình
Trang 13Ví dụ 4: Ước lượng mô hình tiền lương với nhiều biến giải thích
Sử dụng bộ dữ liệu WAGE1.dta
gen educsq=educ*educ
reg lwage educ educsq exper
reg lwage educ educsq exper nonwhite female married
reg lwage educ educsq exper nonwhite female married numdep
I Kiểm tra R2 và Radj2 thay đổi như thế nào khi thêm biến
I Biến nào không phù hợp với mô hình?
Trang 14Sử dụng hệ số phóng đại phương sai (Variance Inflation Factor) để lựa chọn biến
I Hồi quy lần lượt biến xj lên các biến còn lại Tính hệ số thíchhợp R2
Trang 15I Nếu có một biến cộng tuyến hoàn hảo trong mô hình thì VIFcủa biến đó là bao nhiêu?
Trang 16Đưa biến không liên quan vào mô hình
I Giả sử mô hình chuẩn là ˜Y = ˜β0+ ˜β1x1, nhưng chúng ta ướclượng mô hình ˆY = ˆβ0+ ˆβ1x1+ ˆβ2x2
I Mối quan hệ giữa ˜β1 và ˆβ1 là:
˜
β1 = ˆβ1+ ˆβ2σ˜1Với ˜σ1 là hệ số góc của hàm hồi quy của biến x2 lên biến x1
I Nếu biến x2 không quan trọng, ˆβ2 = 0, do đó ˜β1 sẽ không
chệch, ˜β1 = ˆβ1
I Phương sai của các ước lượng sẽ thay đổi!
Trang 17Thiếu biến quan trọng trong mô hình
I Giả sử mô hình chuẩn là ˆY = ˆβ0+ ˆβ1x1+ ˆβ2x2, nhưng chúng
ta ước lượng mô hình ˜Y = ˜β0+ ˜β1x1
Bias( ˜β1) = ˜β1− β1 = β2σ˜1
Trang 18Đánh giá hướng chệch trong mô hình thiếu biến quan trọng
I Nếu β2 = 0, khi biến x2 không phải là biến quan trọng
I Nếu ˜σ1 = 0, khi x1 và x2 không tương quan, thì ˜β1 cũng
không chệch
I Nếu không phải 2 trường hợp trên, ˜β1 chệch, với hướng và
mức độ chệch tùy thuộc vào giá trị của β2 và ˜σ1
Trang 19Ví dụ 5: Ước lượng phương trình tiền lương
Sử dụng bộ dữ liệu WAGE1.dta
I Giả sử mô hình chuẩn có hai biến là giáo dục (educ) và tố
chất cá nhân (ability):
log (wage) = β0+ β1educ + β2ability + u
I Chúng ta không quan sát được tố chất cá nhân, do đó chúng
ta chỉ ước lượng được mô hình:
log (wage) = β0+ β1educ + u
I Ước lượng của β1 có bị chệch không? và chệch theo hướng
nào?
Trang 20I Tỷ suất thu nhập của một năm đi học ước lượng được là
8.3%
Trang 21Mô hình thiếu biến quan trọng trong trường hợp tổng quát
I Mô hình tổng quát với nhiều biến giải thích:
Trang 22Giả định phương sai của sai số không đổi
(homoskedasticity)
5 Với các giá trị của các biến giải thích cho trước, phương saicủa sai số là một hằng số:
Var (u|x1, , xk) = σ2
Trang 23Đặc tính của ước lượng OLS
I Với các giả định 1-5, ước lượng của OLS là ước lượng tuyếntính, không chệch, và hiệu quả nhất (Best Linear Unbiased
Estimator - BLUE)
I Trong tất cả các ước lượng tuyến tính, OLS có phương sai của ước lượng là nhỏ nhất.
I Không chệch.