Chương 3 cung cấp những kiến thức về suy diễn thống kê và dự báo từ mô hình hồi quy. Nội dung chính trong chương này gồm có: Ý nghĩa của suy diễn thống kê, quy luật PPXS của một số thống kê mẫu, 2 ước lượng khoảng tin cậy cho các hệ số hồi quy, kiểm định giả thuyết thống kê về hệ số hồi quy, đánh giá sai số dự báo.
Trang 1CHƯƠNG 3 SUY DIỄN THỐNG KÊ VÀ
DỰ BÁO TỪ MÔ HÌNH HỒI QUY
Vũ Duy Thànhthanhvu.mfe.neu@gmail.com
Khoa Toán Kinh tế - Trường Đại học Kinh tế Quốc dân
Hà Nội, 2015
Trang 2Ý nghĩa của suy diễn thống kê
Câu hỏi tình huống
Để đánh giá tác động của số năm đi học và số năm kinh nghiệmlên lương của người lao động Thu thập thông tin của 100 công
nhân, ước lượng mô hình thu được hàm hồi quy mẫu:
[wagei = 2, 3 + 0.25educi + 0.2experi
Ý nghĩa của các hệ số trong hàm hồi quy mẫu ở trên?
Các hệ số đó phản ánh mối quan hệ trong mẫu nhưng có
phản ánh đầy đủ mối quan hệ trong tổng thể?
Trong mẫu này, gia tăng một năm đi học mang lại nhiều tiềnlương hơn thêm một năm kinh nghiệm? Điều này có đúng
trong toàn tổng thể?
Trang 3Ý nghĩa của suy diễn thống kê
Câu hỏi tình huống
Mẫu 1: [wagei = 2, 3 + 0.25educi+ 0.2experi
Ước lượng mô hình trên với một mẫu 100 công nhân khác thu
được:
Mẫu 2: [wagei = 2, 2 + 0.21educi+ 0.24experi
Kết quả từ mẫu 2 có gì khác mẫu 1?
Trong thực tế tổng thể, liệu tăng 1 năm đi học có thực sự
mang lại nhiều lương hơn thêm 1 năm kinh nghiệm?
Trong tổng thể, thêm một năm kinh nghiệm tác động thế nàođến mức lương?
Tăng 1 năm kinh nghiệm, có làm lương tăng nhiều hơn 220nghìn đồng?
Trang 4Ý nghĩa của suy diễn thống kê
Từ các câu hỏi tình huống trên có thể nhận thấy:
Các hệ số ước lượng từ hàm hồi quy mẫu chỉ phản ánh quyluật của mẫu đó
Để biết được mối quan hệ trong tổng thể, cần thực hiện cácsuy diễn thống kê cho tổng thể từ thông tin mẫu
Có hai dạng suy diễn thống kê là ước lượng khoảng tin cậy vàkiểm định.giả thuyết
Bài toán ước lượng cho biết khoảng tác động của một biếnhay một nhóm biến trong tổng thể với độ tin cậy nhất định.Bài toán kiểm định giả thuyết kiểm tra tính đúng đắn của cácgiả thuyết thống kê đối với toàn tổng thể dựa trên thông tinmẫu với mức ý nghĩa nhất định
Trang 5Nội dung
1 QUY LUẬT PPXS CỦA MỘT SỐ THỐNG KÊ MẪU
2 ƯỚC LƯỢNG KHOẢNG TIN CẬY CHO CÁC HỆ SỐ HỒI QUY
3 KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ VÊ HỆ SỐ HỒI QUY
4 ĐÁNH GIÁ SAI SỐ DỰ BÁO
Trang 6Nội dung
1 QUY LUẬT PPXS CỦA MỘT SỐ THỐNG KÊ MẪU
4 ĐÁNH GIÁ SAI SỐ DỰ BÁO
Trang 7Nhắc lại các giả thiết của phương pháp OLS
Trang 8Nhắc lại các giả thiết của phương pháp OLS
Giả thiết
Giả thiết 3: Phương sai của sai số ngẫu nhiên tại các giá trị(X2i, , Xki) đều bằng nhau:
Var (u|X2i, , Xki) = σ2, ∀i
Giả thiết 4: Giữa các biến độc lập Xj, j = 2, , k không cómối quan hệ tuyến tính, nghĩa là không tồn tại các hằng số(λ2, , λk) không đồng thời bằng 0 sao cho:
λ2X2+ · · · + λkXk = 0
Trang 9
Định lý Gauss - Markov
Định lý (Định lý Gauss – Markov)
Khi các giả thiết 1- 4 thỏa mãn thì các ước lượng thu được từ
phương pháp OLS là các ước lượng tuyến tính, không chệch và cóphương sai nhỏ nhất trong lớp các ước lượng tuyến tính không
chệch (BLUE - Best Linear Unbiased Estimator)
Từ định lý Gauss - Markov, thu được:
E ( ˆβj) = βj ( ˆβj là ước lượng không chệch của βj)
Sai số chuẩn của ˆβj, kí hiệu se( ˆβj):
ji
Trang 10Quy luật phân phối của ˆ βj - Giả thiết số 5
Với mô hình HQTT k biến: Y = β1+ β2X2+ + βkXk + u
Từ mẫu kích thước n: (X2i, , Xki, Yi), i = 1, 2, , n thu được:Hàm hồi quy mẫu: ˆYi = ˆβ1+ ˆβ2X2i + + ˆβkXki
Để có thể đưa ra các suy diễn cho hệ số hồi quy trong tổngthể cần biết quy luật phân phối của ˆβj
Để có được quy luật phân phối của ˆβj, giả thiết thứ 5 sẽ được
đề xuất
Trang 11Quy luật phân phối của ˆ βj - Giả thiết số 5
Giả thiết
Giả thiết 5: Sai số ngẫu nhiên tuân theo quy luật phân phối
chuẩn:
ui ∼ N(0, σ2)
Các giả thiết 1 - 5 gọi là các GThiết của MH HQTT cổ điển
MH thỏa mãn cả 5 giả thiết trên gọi là MH HQTT cổ điển.Khi có thêm GThiết 5, các ước lượng OLS sẽ trở thành ướclượng không chệch tốt nhất (BUE) kể cả trong các ước lượngtuyến tính hay phi tuyến
Kết quả này mạnh hơn cả định lý Gauss - Markow khi các ướclượng chỉ là ước lượng tuyến tính tốt nhất (BLUE) với 4
GThiết đầu
Trang 12Quy luật phân phối của ˆ βj
Trang 13Quy luật phân phối của a ˆ βj + b ˆ βs
Với a và b là hai số thực bất kì không đồng thời bằng 0, ta có:
Khi các giả thiết từ 1-5 thỏa mãn thì:
(a ˆβj + b ˆβs) ∼ N(aβj + bβs, var (a ˆβj + b ˆβs))
Khi các giả thiết từ 1-5 thỏa mãn thì:
t = (a ˆβj + b ˆβs) − (aβj + bβs)
se(a ˆβj + b ˆβs) ∼ Tn−k
Trang 14Nguyên lý xác suất lớn và xác suất nhỏ
Nguyên lý xác suất lớn hàm ý sự kiện nào đó xảy ra với
mức xác suất rất lớn thì coi như sự kiện ấy xảy ra
Nguyên lý xác suất nhỏ hàm ý sự kiện nào xảy ra với xácsuất rất nhỏ thì coi như không xảy ra
Độ tin cậy (1 − α) (ví dụ: 1 − α = 95%) hàm ý, sự kiện nàoxảy ra với xác suất lớn ≥ (1 − α) thì coi như sẽ xảy ra, còn
< (1 − α) thì có thể không xảy ra
Mức ý nghĩa α (ví dụ α = 5%) hàm ý sự kiện nào xảy ra vớixác suất ≤ α thì coi như không xảy ra, còn > α thì có thể xảyra
Trang 15Nội dung
2 ƯỚC LƯỢNG KHOẢNG TIN CẬY CHO CÁC HỆ SỐ HỒI QUY
4 ĐÁNH GIÁ SAI SỐ DỰ BÁO
Trang 16Bài toán ước lượng khoảng tin cậy cho các hệ số hồi quy
Câu hỏi tình huống
Ước lượng chi tiêu của hộ gia đình phụ thuộc vào thu nhập và tàisản thu được hàm hồi quy mẫu:
Trang 17Ước lượng Khoảng tin cậy cho một hệ số hồi quy
Với mô hình HQTT k biến: Y = β1+ β2X2+ + βkXk + u
Từ mẫu kích thước n: (X2i, , Xki, Yi), i = 1, 2, , n thu được:Hàm hồi quy mẫu: ˆYi = ˆβ1+ ˆβ2i + + ˆβki
Trang 18Ước lượng Khoảng tin cậy cho một hệ số hồi quy
Trang 19Ước lượng Khoảng tin cậy cho một hệ số hồi quy
Trang 20Ước lượng Khoảng tin cậy cho một hệ số hồi quy
Trang 21Ý nghĩa Khoảng tin cậy cho một hệ số hồi quy
Ý nghĩa
Khoảng tin cậy đối xứng: Với độ tin cậy 1 − α, khi biến độclập Xj tăng thêm một đơn vị và các biến khác trong mô hìnhkhông đổi thì giá trị trung bình của biến phụ thuộc Y sẽ thayđổi trong khoảng:
ˆβj − t
α/2(n − k)se( ˆβj) ; ˆβj + tα/2(n − k)se( ˆβj)
Trang 22
Ý nghĩa Khoảng tin cậy cho một hệ số hồi quy
Ý nghĩa
Khoảng tin cậy bên trái: Với độ tin cậy 1 − α, khi biến độclập Xj tăng thêm một đơn vị và các biến khác trong mô hìnhkhông đổi thì giá trị trung bình của biến phụ thuộc Y sẽ thayđổi tối đa:
ˆ
βj + tα(n − k)se( ˆβj)Khoảng tin cậy bên phải: Với độ tin cậy 1 − α, khi biến độclập Xj tăng thêm một đơn vị và các biến khác trong mô hìnhkhông đổi thì giá trị trung bình của biến phụ thuộc Y sẽ thayđổi tối thiểu:
ˆ
βj − tα(n − k)se( ˆβj)
Trang 23Khoảng tin cậy cho một hệ số hồi quy
(2) Với độ tin cậy 95%, khi Thu nhập tăng thêm 1 triệu sẽ
làm cho Chi tiêu tăng tối đa bao nhiêu đơn vị?
(3) Với độ tin cậy 95%, khi Tài sản tăng thêm 1 triệu sẽ làmcho Chi tiêu tăng tối thiểu bao nhiêu đơn vị?
Trang 24Khoảng tin cậy cho một hệ số hồi quy
Trả lời ý 1: Để trả lời câu hỏi này, cần ước lượng khoảng tin cậyđối xứng của β2
tăng thêm trong khoảng từ 761 nghìn đồng đến 827 nghìn đồng
Trang 25Khoảng tin cậy cho một hệ số hồi quy
Trả lời ý 2 : Để trả lời câu hỏi này, cần ước lượng khoảng tin cậybên trái của β2
Trang 26Khoảng tin cậy cho một hệ số hồi quy
Trả lời ý 3: Để trả lời câu hỏi này, cần ước lượng khoảng tin cậybên phải của β3
Trang 27Khoảng tin cậy cho biểu thức có hai hệ số hồi quy
Câu hỏi tình huống
Ước lượng chi tiêu của hộ gia đình phụ thuộc vào thu nhập và tàisản thu được hàm hồi quy mẫu:
Trang 28Khoảng tin cậy cho biểu thức có hai hệ số hồi quy
Sai lầm tư duy:
Với tình huống ở trên, cần xác định khoảng tin cậy của β2+ β3 với
độ tin cậy 95 %
Giả sử: Khoảng tin cậy của β2 là (a2; b2), của β3 là (a3; b3)
Liệu có suy ra được: khoảng tin cậy của β2+ β3 là
(a2+ a3; b2+ b3)
Câu trả lời là không, do:
(P(a2 < β2< b2) = 95%
P(a3 < β3< b3) = 95%
không suy ra được: P(a2+ a3 < β2+ β3< b2+ b3) = 95%
Trang 29Khoảng tin cậy cho biểu thức có hai hệ số hồi quy
→ Bài toán trở thành tìm khoảng tin cậy cho A
Đây là dạng tương tự như ước lượng khoảng tin cậy cho một hệ số
Trang 30Khoảng tin cậy cho biểu thức có hai hệ số hồi quy
Khái niệm
Khoảng tin cậy đối xứng của aβj + bβk là:
(a ˆβj + b ˆβs) − tα/2(n − k) × se(a ˆβj + b ˆβs)
(a ˆβj + b ˆβs) + tα/2(n − k) × se(a ˆβj + b ˆβs)
Trang 31Khoảng tin cậy cho biểu thức có hai hệ số hồi quy
Trang 32Vấn đề tương quan giữa các hệ số
Để tính được khoảng tin cậy của biểu thức hai hệ số cần tính đượcse(a ˆβj + b ˆβs):
se(a ˆβj + b ˆβs) =
qvar (a ˆβj + b ˆβs)
Trang 33Ý nghĩa Khoảng tin cậy cho một biểu thức gồm hai hồi quy
Ý nghĩa
Khoảng tin cậy đối xứng: Với độ tin cậy 1 − α, khi biến độclập Xj tăng thêm a đơn vị và khi biến độc lập Xs tăng thêm bđơn vị,các biến khác trong mô hình không đổi, thì giá trị
trung bình của biến phụ thuộc Y sẽ thay đổi trong khoảng:
(a ˆβj + b ˆβs) − tα/2(n − k) × se(a ˆβj+ b ˆβs)
(a ˆβj + b ˆβs) + tα/2(n − k) × se(a ˆβj+ b ˆβs)
Trang 34Ý nghĩa Khoảng tin cậy cho một biểu thức gồm hai hồi quy
Ý nghĩa
Khoảng tin cậy bên trái: Với độ tin cậy 1 − α, khi biến độclập Xj tăng thêm a đơn vị và khi biến độc lập Xs tăng thêm bđơn vị,các biến khác trong mô hình không đổi, thì giá trị
trung bình của biến phụ thuộc Y sẽ thay đổi tối đa:
(a ˆβj + b ˆβs) + tα(n − k) × se(a ˆβj + b ˆβs)
Khoảng tin cậy bên phải: Với độ tin cậy 1 − α, khi biến độclập Xj tăng thêm a đơn vị và khi biến độc lập Xs tăng thêm bđơn vị,các biến khác trong mô hình không đổi, thì giá trị
trung bình của biến phụ thuộc Y sẽ thay đổi tối thiểu:
(a ˆβj + b ˆβs) − tα(n − k) × se(a ˆβj + b ˆβs)
Trang 35Khoảng tin cậy cho một biểu thức gồm hai hồi quy
Trang 36Khoảng tin cậy cho một biểu thức gồm hai hồi quy
=√0.0162+ 0.0042+ 2 × 0.00001 = 0.017
Khoảng tin cậy đối xứng của β2+ β3 là
(0.809 − 2.052 × 0.017; 0.809 + 2.052 × 0.017) = (0.774; 0.844)Như vậy, với độ tin cậy 95%, khi thu nhập và tài sản cùng tăng
thêm 1 triệu đồng sẽ làm cho trung bình chi tiêu tăng thêm trongkhoảng từ 774 nghìn đồng đến 844 nghìn đồng
Trang 37Khoảng tin cậy cho một hệ số hồi quy
=√0.0162+ 25 × 0.0042+ 2 × 5 × 0.00001 = 0.027
Khoảng tin cậy bên trái của β2+ 5β3 là
(−∞; 0.869 + 1.703 × 0.027) = (−∞; 0.916)
Như vậy, với độ tin cậy 95%, khi thu nhập tăng thêm 1 triệu đồng
và tài sản tăng thêm 5 triệu đồng sẽ làm cho trung bình chi tiêutăng thêm tối đa 916 nghìn đồng
Trang 38Khoảng tin cậy cho một hệ số hồi quy
Trang 39Ý nghĩa của độ tin cậy 1 − α
Với độ tin cậy 95%, khoảng tin cậy của biểu thức A được hiểu
là nếu lấy ngẫu nhiên nhiều mẫu từ tổng thể để ước lượng Athì có khoảng 95% các khoảng tin cậy vừa tìm ra chứa giá trị
Trang 40Các yếu tố ảnh hưởng đến độ dài khoảng tin cậy
Từ công thức khoảng tin cậy đối xứng có thể nhận thấy , độ dàikhoảng tin cậy của hệ số βj là:
Trang 41Các yếu tố ảnh hưởng đến độ dài khoảng tin cậy
Bậc tự do (n − k):
Bậc tự do (n − k) càng bé thì giá trị tới hạn tα/2(n − k) cànglớn hay độ chính xác của khoảng tin cậy giảm dần
Nếu đưa càng nhiều biến độc lập vào mô hình thì k càng tăng
và bậc tự do giảm → khoảng tin cậy kém chính xác
Khi kích cỡ mẫu n nhỏ, tăng k làm bậc tự do thay đổi nhiều;khi n lớn thì tăng k làm giảm bậc tự do không đáng kể →
Tăng kích cỡ mẫu làm tăng độ chính xác và giảm tác động
làm giảm độ chính xác của việc tăng số biến độc lập
Trang 42Các yếu tố ảnh hưởng đến độ dài khoảng tin cậy
Tương quan tuyến tính giữa các biến độc lập:
Sai số chuẩn của hệ số ước lượng:
Trang 43Nội dung
3 KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ VÊ HỆ SỐ HỒI QUY
4 ĐÁNH GIÁ SAI SỐ DỰ BÁO
Trang 44Bài toán kiểm định giả thuyết về một hệ số hồi quy
Câu hỏi tình huống
Ước lượng chi tiêu của hộ gia đình phụ thuộc vào thu nhập và tàisản thu được hàm hồi quy mẫu:
d
Trong tổng thể, tài sản có thực sự tác động đến chi tiêu?
Tác động của thu nhập lên chi tiêu có thực sự nhỏ hơn 1?
Trang 45Bài toán kiểm định giả thuyết về một hệ số hồi quy
Xác định cặp giả thuyết
Xét một mô hình HQ: Y = β1+ β2X2+ β3X3+ + βkXk + u
Thông thường để nhận định về một hệ số, người ta thường sosánh với một giá trị cho trước Chẳng hạn, khi Xj tăng mộtđơn vị thì trung bình Y có tăng lên ít hơn, không nhiều hơn,bằng, không ít hơn hay nhiều hơn một giá trị β? nào đó haykhông
Trang 46Bài toán kiểm định giả thuyết về một hệ số hồi quy
Trang 47Kiểm định giả thuyết về một hệ số hồi quy
Giả thuyết gốc H0: βj = β∗, ta có các giả thiết H1 tương
Trang 48Kiểm định giả thuyết về một hệ số hồi quy
Các miền bác bỏ giả thuyết tương ứng:
Một phía βj = (≥)β? βj < β? tqs < −tα(n − k)Một phía βj = (≤)β? βj > β? tqs > tα(n − k)
Trang 49Kiểm định giả thuyết về một hệ số hồi quy
Các bước tiến hành một bài toán kiểm định
Bước 1: Lập cặp giả thuyết thống kê
Bước 2: Tính toán giá trị quan sát của thống kê kiểm địnhBước 3: So sánh thống kê quan sát với giá trị tới hạn để đưa
ra kết luận kiểm định
Trang 50Bài toán về ý nghĩa thống kê của ước lượng hệ số hồi quy
Một biến độc lập chỉ thực sự tồn tại trong mô hình nếu hệ sốhồi quy của biến độc lập đó khác 0 trong tổng thể (hay biến
Trang 51Bài toán về ý nghĩa thống kê của ước lượng hệ số hồi quy
(1) Với mức ý nghĩa α = 5%, hệ số ước lượng của biến tài sản
có ý nghĩa thống kê hay không?
Trang 52Bài toán về ý nghĩa thống kê của ước lượng hệ số hồi quyTrả lời:
Bước 1: Lập cặp giả thuyết kiểm định:
Trang 53Bài toán so sánh hệ số hồi quy với một số cho trước
Khi xem xét một bài toán so sánh, cần chú ý mối quan hệ về dấutrong giả thuyết để xác định cặp giả thuyết phù hợp:
Trang 54Bài toán so sánh hệ số hồi quy với một số cho trước
(1)Khi thu nhập tăng lên thì chi tiêu trung bình có tăng ít
hơn thu nhập hay không? (α = 5%)
(2)Khi tài sản tăng thêm 1 tỷ đồng thì trung bình chi tiêu cótăng thêm nhiều hơn 20 triệu hay không? (α = 5%)
Trang 55Bài toán so sánh hệ số hồi quy với một số cho trước
Trang 56Bài toán so sánh hệ số hồi quy với một số cho trước
Trang 57Bài toán kiểm định giả thuyết về một biểu thức hai hệ số
Bài toán kiểm định giả thuyết về một biểu thức hai hệ số
được chuyển về dạng tổng quát là so sánh biểu thức
aβj+ bβs với một giá trị cụ thể
Phương pháp kiểm định tương tự như kiểm định giả thuyếtvới một hệ số Xuất phát từ:
t = (a ˆβj + b ˆβs) − (aβj + bβs)
se(a ˆβj + b ˆβs) ∼ Tn−k
Trang 58Bài toán kiểm định giả thuyết về một biểu thức hai hệ số
Trang 59Bài toán so sánh mức độ tác động của hai biến độc lập
Trang 60Bài toán so sánh mức độ tác động của hai biến độc lập
Trang 61Bài toán so sánh mức độ tác động của hai biến độc lập
(1) Đầu tư thêm cho máy móc thiết bị có đem lại nhiều lợi
nhuận hơn mở thêm đại lý hay không? (α = 5%)
Trang 62Bài toán so sánh mức độ tác động của hai biến độc lập
Gợi ý trả lời:
Nếu không có thêm thông tin gì về chi phí đầu tư máy mócthiết bị và mở rộng đại lý, thì không thể so sánh giữa hai hoạtđộng trên do hai biến độc lập không có cùng đơn vị tính toán
Trang 63Bài toán đánh giá tác động tổng hợp của hai biến độc lập
(1) Công ty muốn tăng thêm một máy sản xuất và thuê thêm
20 lao động thì có giúp sản lượng tăng nhiều hơn 200 hay
không? (α = 5%)
(2) Công ty muốn giảm bớt 20 lao động và thay bằng 3 máysản xuất thì có làm ảnh hưởng đến tổng số linh kiện hay
Trang 64Bài toán đánh giá tác động tổng hợp của hai biến độc lập
Trang 65Giá trị xác suất P của các thống kê kiểm định: P-valueBản chất của mức xác xuất p trong các kiểm định:
Khi kiểm định một cặp giả thuyết:
Nếu αqs < α thì coi như H0 không xảy ra
Nếu αqs > α thì coi như H0 có thể xảy ra
→ Nếu mức ý nghĩa lớn hơn xác xuất của kiểm định thì bác bỏ
H0 Nếu mức ý nghĩa nhỏ hơn xác xuất của kiểm định thì thừa
nhận H0
Trang 66Giá trị xác suất P của các thống kê kiểm định: P-value
Trang 67Giá trị xác suất P của các thống kê kiểm định: P-value
Quy tắc kiểm định sử dụng xác xuất:
Nếu giá trị xác suất p của kiểm định là nhỏ hơn mức ý nghĩa
α thì ta bác bỏ H0
Trang 68Kiểm định nhiều ràng buộc các hệ số
Ví dụ
Ước lượng mô hình năng suất lao động (prod) phụ thuộc vào độtuổi (age), học vấn (edu) kinh nghiệm (exp), giới tính (gen) và
tiền lương (wage):
proc = β1+ β2age + β3edu + β4exp + β5gen + β6wage + u
Chúng ta muốn kiểm định xem biến wage và biến gen có cùng tácđộng lên proc Kiểm định cặp giả thuyết:
(
H0 : β5 = β6 = 0
H1 : β52+ β62 > 0