Khái niệm - Phân tích hồi quy là nghiên cứu sự phụ thuộc của một biến biến phụ thuộc hay biến được giải thích, vào một hay nhiều biến khác biến độc lập hay biến được giải thích nhằm ước
Trang 1NHẬN XÉT CỦA GIẢNG VIÊN
………
………
………
………
………
………
………
………
………
………
………
………
………
………
………
………
………
………
………
………
………
………
………
Trang 2MỤC LỤC
Chương I: Cơ sở lý luận về phân tích hồi quy 3
1 Khái niệm 3
2 Nhiệm vụ 4
3 Mục đích 4
4 Phân biệt các mối quan hệ 5
5 Các loại mô hình hồi quy 6
Chương II: Điều tra về chi tiêu-thu nhập của một số hộ gia đình ở Hà Nội năm 2013 .10
Trang 3CHƯƠNG 1: CƠ SỞ LÝ LUẬN VỀ PHÂN TÍCH HỒI QUY
1 Khái niệm
- Phân tích hồi quy là nghiên cứu sự phụ thuộc của một biến (biến phụ thuộc hay biến được giải thích), vào một hay nhiều biến khác (biến độc lập hay biến được giải thích) nhằm ước lượng và dự báo giá trị trung bình của biến phụ thuộc trên cơ sở các giá trị biết trước của các biến độc lập
- Là kỹ thuật thống kê dùng để ước lượng phương trình phù hợp nhất với các tập hợp kết quả quan sát của biến phụ thuộc và biến độc lập Nó cho phép đạt được kết quả ước lượng tốt nhất về mối quan hệ chân thực giữa các biến số Từ phương trình ước lượng được này, người ta có thể dự báo về biến phụ thuộc (chưa biết) dựa vào giá trị cho trước của biến độc lập (đã biết)
- Ví dụ: Nếu hệ số hồi quy ước lượng được của C¯ và c lần lượt là 500 và 0.7, phương trình hồi quy sẽ là C = 500 + 0.7Y, và chúng ta có thể suy ra rằng, nếu thu nhập bằng
10 000 đồng, mức chi tiêu cho tiêu dùng sẽ bằng:
C = 500 + 0.7Y = 500 + 0.7 x 10000 = 7500
Hệ số hồi quy phản ánh độ dốc của đường hồi quy tuyến tính c có ý nghĩa đặc biệt quan trọng trong kinh tế học, vì nó cho thấy sự thay đổi của biến phụ thuộc- trong trường hợp này là biến tiêu dùng- khi có sự thay đổi bằng một đơn vị của biến độc lập -trong trường hợp này là thu nhập Ví dụ, giá trị của c bằng 0.7 cho thấy người tiêu dùng sẽ chi 70% thu nhập sử dụng tăng thêm cho mục đích tiêu dùng
- Phương trình hồi quy không đem lại dự báo chính xác về biến phụ thuộc khi biết giá trị của biến độc lập Lý do là các hệ số hồi quy ước lượng được từ kết quả quan sát mẫu chỉ là con số ước lượng tốt nhất cho các tham số chân thực của tổng thể, vì vậy chúng phụ thuộc vào những biến thiên ngẫu nhiên Kết quả là có thể thiết lập một phân phối có điều kiện để cho các giá trị có khả năng xuất hiện của biến phụ thuộc C do phương trình hồi quy dự báo cho một giá trị cho trước của biến độc lập Y Độ lệch tiêu chuẩn của phân phối có điều kiện này là chỉ báo về các giới hạn mà chúng ta hy vọng rằng chỉ tiêu cho tiêu dùng sẽ rơi vào đó với một mức thu nhập cho trước Vấn đề này được phản ánh trong đại lượng thống kê có tên là sai số chuẩn của ước lượng - đại lượng biểu thị các giới hạn ước lượng được mà trong đó chúng ta hy vọng C sẽ rời vào với một Y cho trước và một xác suất cho trước, chẳng hạn 0.95 và 500, khi đó chúng ta
có thể tin tưởng rằng trong 95% trường hợp, mức tiêu dùng chân thực tính cho mức thu nhập 10000 đồng sẽ nằm trong khoảng 7500đ - 500 và 7500đ + 500
Trang 4Để xác nhận tính chất không hoàn hảo của tất cả các phương trình hồi quy ước lượng được dựa trên một mẫu khi xác định mối quan hệ chân thực trong tổng thể, phương trình hồi quy thường được viết thành:
C = C¯ + cYd + e
tức được bổ sung thêm biểu thức biểu thị phần dư hoặc sai số e để phản ánh tác động phụ thêm của sự biến thiên ngẫu nhiên và những tác động của các biến số độc lập khác,
ví dụ lãi suất của tín dụng tiêu dùng - yếu tố ảnh hưởng đến chi tiêu cho tiêu dùng, nhưng không được biểu thị rõ trong phương trình hồi quy
Khi nghĩ rằng không p`hải chỉ có một biến số độc lập tác động mạnh tới biến số phụ thuộc, người ta sử dụng phương pháp hồi quy tuyến tính bội Kỹ thuật này bao gồm việc thiết lập một phương trình hồi quy bội có hai hoặc nhiều biến độc lập Chẳng hạn:
C = C¯ + bY + di + e
Trong đó: i là lãi suất của tín dụng tiêu dùng
d là hệ số bội quy bổ sung gắn với biến độc lập bổ sung i
Việc ước lượng phương trình hồi quy bội bằng phương pháp bình phương nhỏ nhất thông thường làm cho đồ thị trong không gian ba chiều phù hợp với các kết quả quan sát mẫu và có thể được sử dụng để ước lượng giá trị của ba hệ số hồi quy C¯, c và d trong phương trình trên
Khi các mối quan hệ cơ bản giữa những biến số độc lập và phụ thuộc không phải tuyến tính (phi tuyến), phương pháp hồi quy tuyến tính không ứng dụng được Tuy nhiên, các mối quan hệ có dạng cong (phi tuyến) có thể chuyển thành quan hệ tuyến tính bằng cách sử dụng logarit tự nhiên của các biến số, qua đó làm cho chúng tuân theo phương pháp phân tích hồi quy tuyến tính
2 Nhiệm vụ
-Ước lượng giá trị trung bình của biến phụ thuộc với giá trị đã cho của biến độc lập -Kiểm định giả thiết về bản chất của sự phụ thuộc
-Dự đoán giá trị trung bình của biến phụ thuộc khi biết giá trị của các biến độc lập -Kết hợp các vấn đề trên
3 Mục đích
Trang 5Tưởng tượng rằng chúng ta có thông tin về thu nhập và chi tiêu tiêu dùng, chúng ta tin tưởng tin tưởng rằng chi tiêu tiêu dùng phụ thuộc vào thu nhập và chúng ta biểu diễn
cả 2 biến này lên đồ thị Biểu diễn biến phụ thuộc lên trục tung, còn biến giải thích (biến độc lập) lên trục hoành
Mục đích của phân tích hồi quy là qua những điểm dữ liệu, chúng ta có thể kẻ ra một đường phù hợp nhất, sát nhất với các quan sát để sao cho có thể biểu diễn mối quan hệ giữa hai biến thu nhập và chi tiêu tiêu dùng một cách đáng tin cậy nhất
4 Phân biệt các mối quan hệ
Quan hệ thống kê và quan hệ hàm số:
Thống kê Hàm số
- Biến phụ thuộc là đại lượng ngẫu
nhiên
- Ứng với một giá trị của biến độc lập
có thể có nhiều giá trị khác nhau của
biến phụ thuộc (1 giá trị X, nhiều giá
trị Y)
- Biến phụ thuộc không phải là đại lượng ngẫu nhiên
- Ứng với một giá trị của biến độc lập có1 giá trị của biến phụ thuộc (1 giá trị
X, 1 giá trị Y)
Ví dụ: Doanh thu kinh doanh về một sản phẩm, dịch vụ nào đó phụ thuộc vào giá cả của chính doanh nghiệp, thị hiếu của người tiêu dùng,…là một quan hệ thống kê Các biến giá cả sản phẩm, dịch vụ, thị phần, thị hiếu,…là các biến độc lập; doanh thu sản phẩm, dịch vụ là biến phụ thuộc, là đại lượng ngẫu nhiên Không thể dự báo một cách chính xác doanh thu cho một năm tương lai nào đó, vì:
- Có thể có sai số trong dãy số thống kê
- Có rất nhiều nhân tố khác cùng ảnh hưởng đến doanh thu của sản phẩm, dịch vụ mà
ta không thể liệt kê hết và nếu có cũng không thể tách được ảnh hưởng riêng của từng nhân tố đến biến doanh thu cho dù ta có thể đưa thêm vào bao nhiêu biến giải thích khác
Trong hình học ta đều biết chu vi của hình vuông bằng 4 lần chiều dài của một cạnh, tức Y=4X Trong đó Y là chu vi của hình vuông và X là chiều dài của một cạnh hình vuông đó Vậy ở đây X và Y có mối quan hệ hàm số, ứng với mỗi giá trị X ta chỉ có một giá trị duy nhất của Y Phân tích hồi quy không xét các quan hệ này
Trang 6 Hàm hồi quy và quan hệ nhân quả:
Phương trình hồi quy không đòi hỏi giữa các biến độc lập và biến phụ thuộc có mối quan hệ nhân quả
Ví dụ: Luật cầu nói rằng trong điều kiện các biến (yếu tố) khác không thay đổi thì nhu cầu một loại hàng hóa, tỷ lệ nghịch với giá của hàng hóa đó
Hồi quy và tương quan:
Hồi quy Tương quan
Mục
đích
Ước lượng hoặc dự báo giá trị của một biến trên cơ sở giá trị đã cho của các biến khác
Đo mức độ kết hợp tuyến tính giữa các biến
Kỹ thuật Các biến không có tính chất đối
xứng, biến phụ thuộc là đại lượng ngẫu nhiên, biến độc lập giá trị đã biết
Các biến có tính chất đối cứng, không có sự phân biệt giữa các biến
Ví dụ: Mức độ quan hệ giữa nghiện thuốc lá và ung thư phổi, giữa kết quả thi môn lý
và môn toán Nhưng phân tích hồi quy lại ước lượng và dự báo một biến trên cơ sở giá trị đã cho của các biến khác
5 Các loại mô hình hồi quy
A Mô hình hồi quy đơn
Hàm hồi quy:
a) Hàm hồi quy tổng thế (PRF)
E(Y/Xi) = f(Xi) E(Y/Xi) = 1 + 2.Xi
Trong đó: β1, β2 là các hệ số hồi quy
b) Hàm hồi quy mẫu (SRF)
i = 1 + 2.Xi
Trong đó: i : Ước lượng điểm của E(Y/Xi)
Trang 71, 2: Ước lượng điểm của 1, 2
Kiểm định giả thiết đối với các hệ số hồi quy:
a) Kiểm định giả thiết – phương pháp khoảng tin cậy
Kiểm định giả thiết đối với còn tương tự
- Kiểm định hai phía:
KĐGT H0: = *
H1: * Với độ tin cậy 1 – α, ta tìm được khoảng tin cậy của là:
2 - tα/2(n-2).se(2) 2+tα/2(n-2).se(2) Nếu * nằm trong khoảng này thì không bác bỏ giả thiết H0
Nếu * nằm ngoài khoảng này thì bác bỏ giả thiết H0
- Kiểm định một phía: Để kiểm định giả thiết này ta thường áp dụng phương pháp kiểm định ý nghĩa
b) Kiếm định giả thiết – phương pháp kiểm định ý nghĩa (kiểm định t)
Loại giả thiết Giả thiết H 0 Giả thiết H 1 Miền bác bỏ
Hai phía = * *
Phía phải * * t >
Phía trái * < * t <
b) Kiếm định giả thiết – phương pháp kiểm định ý nghĩa (kiểm định p-value)
Mức ý nghĩa chính xác: p-value
Khi tiến hành kiểm định giả thiết, việc bác bỏ hay không bác bỏ giả thiết không phụ thuộc nhiều vào α nên dễ ắc sai lầm bác bỏ giả thiết khi nó đúng (sai lầm loại I) hoặc không bác bỏ khi nó sai (sai lầm loại II)
Để khắc phục người ta sử dụng giá trị p (giá trị xác suất) – mức ý nghĩa quan sát hay mức ý nghĩa chính xác
P -value = P() Kiểm định giả thiết bằng phương pháp kiểm định p-value
KĐGT: H0: βj=0
H1: βj0
Trang 8Đây là mức ý nghĩa thấp nhất mà giả thiết không có thể bị bác bỏ.
Nếu α>p thì H0 bị bác bỏ
Nếu α<p thì không đủ cơ sở bác bỏ giả thiết H0
Kiểm định sự phù hợp của mô hình:
Kiểm định giả thiết: H0: R2=0 tương đương H0: β2 = 0
H1: R2>0 H1: β2 0
Để kiểm định giả thiết trên ta áp dụng quy tắc kiểm định sau:
Tính F theo công thức:
F= hoặc F=
So sánh F với Fα(1,n-2) Nếu F> Fα(1,n-2) thì bác bỏ giả thiết H0 tức là mô hình phù hợp Ngược lại nếu F< Fα(1,n-2) thì không đủ cơ sở bác bỏ giả thiết H0 tức là mô hình không phù hợp
B Mô hình hồi quy bội
a) Hàm hồi quy tổng thế (PRF)
- Hàm hồi quy tổng thể (PRF) trong trường hợp 3 biến có dạng:
E(Y/X2i, X3i)=β1+β2.X2+β3.X3
Trong đó: Y là biến phụ thuộc (biến được giải thích)
X2, X3 là các hệ số độc lập (biến giải thích)
β1 là hệ số tự do
β2, β3 là hệ số hồi quy riêng
- Hàm số hồi quy tổng thể ngẫu nhiên (PRF ngẫu nhiên) trong trường hợp 3 biến có dạng:
Yi= E(Y/X2i, X3i)+Ui=β1+β2.X2+β3.X3+Ui
Trong đó: Ui: sai số ngẫu nhiên hay yếu tố ngẫu nhiên
b) Hàm hồi quy mẫu (SRF)
- Hàm hồi quy mẫu (SRF) có dạng:
i = 1 + 2.X2i+3.X3i
Trong đó: i: Ước lượng điểm của E(Y/X2i,X3i)
1, 2,3: Ước lượng điểm của 1, 2,3
Trang 9- Hàm hồi quy mẫu ngẫu nhiên (SRF ngẫu nhiên) trong trường hợp 3 biến có dạng:
Yi= i +ei=1 + 2.X2i+3.X3i+ei
Trong đó: ei: số dư hay phần dư – là ước lượng điểm của Ui
Kiểm định giả thiết đối với các hệ số hồi quy:
Tương tự hồi quy đơn có hai phương pháp kiểm định giả thiết:
- Phương pháp khoảng tin cậy (giống hồi quy hai biến)
- Phương pháp kiểm định ý nghĩa (giống hồi quy hai biến)
Loại giả thiết Giả thiết H 0 Giả thiết H 1 Miền bác bỏ
Hai phía = 0 0
Phía phải 0 0 t >
Phía trái 0 < 0 t <
(Trong đó: j = 1, 2, 3)
Kiểm định sự phù hợp của mô hình:
Kiểm định giả thiết: H0 : R2 = 0 tương đương H0: β2 = β3 = …= βk 0
H1 : R2 > 0 H1: khác 0
Để kiểm định giả thiết trên ta áp dụng quy tắc kiểm định sau:
Tính F theo công thức:
F= hoặc F=
So sánh F với Fα(k-1,n-k) Nếu F> Fα(1,n-2) thì bác bỏ giả thiết H0, tức là các hệ số hồi quy không đồng thời bằng 0 hay mô hình phù hợp Ngược lại nếu F< Fα(k-1,n-k) thì ta không đủ cơ sở bác bỏ giả thiết H0, tức là các hệ số hồi quy đồng thời bằng 0 hay mô hình không phù hợp
Trang 10Chương 02: Điều tra về chi tiêu - thu nhập của một số hộ gia
đình ở Hà Nội năm 2013
* Dữ liệu:
Household's
number of
member
Household total income Healthcare expense Education expense
Household Consumption Expenditure
Householder's
Trang 113 55700 400 0 45495 52 1
Ta có: -Quy ước: Y là chi tiêu gia đình (nghìn đồng)
là tổng thu nhập gia đình (nghìn đồng)
là số thành viên trong gia đình (người)
D là vùng miền (thành thị, nông thôn)
-Mức ý nghĩa: α = 5%
Bảng số liệu:
STT Chi tiêu gia đình
(Y) Tổng thu nhập giađình () Số thành viên tronggia đình ( Vùng miền (D)
13 115263 163100 4 1
Trang 1218 34573 62000 3 1
Câu 1:
1 Trong hai mô hình nên chọn mô hình nào để tiến hành dự báo?
MH1: = + = 12510,07 + 0,699722
Trang 13Dependent Variable: Y
Method: Least Squares
Date: 09/17/20 Time: 21:46
Sample: 1 50
Included observations: 50
Y=C(1)+C(2)*X2
Coefficient Std Error t-Statistic Prob
Adjusted R-squared 0.486792 S.D dependent var 27191.26 S.E of regression 19479.42 Akaike info criterion 22.63128 Sum squared resid 1.82E+10 Schwarz criterion 22.70776 Log likelihood -563.7821 Durbin-Watson stat 1.760439
MH2: = + + =
Dependent Variable: Y
Method: Least Squares
Date: 09/17/20 Time: 21:54
Sample: 1 50
Included observations: 50
Y=C(1)+C(2)*X2+C(3)*X3
Coefficient Std Error t-Statistic Prob
X3 -1328.229 2626.891 -0.505628 0.6155
Adjusted R-squared 0.478708 S.D dependent var 27191.26 S.E of regression 19632.23 Akaike info criterion 22.66586 Sum squared resid 1.81E+10 Schwarz criterion 22.78058 Log likelihood -563.6464 Durbin-Watson stat 1.732171
=
= => >
Vậy chọn MH1 để tiến hành dự báo
Trang 140 40000
80000
120000
160000
200000
0 40000 80000 120000 160000
SER04
SER05 vs SER04
2 Trong mô hình được chọn, giải thích ý nghĩa của các ước lượng hệ số hồi quy Kết quả có phù hợp với lý thuyết kinh tế hay không?
= 12510,07 cho biết ước lượng chi tiêu gia đình Y trung bình bằng 12510,07 nghìn đồng khi thu nhập hộ gia đình nhận giá trị 0
0,699722 cho biết ước lượng chi tiêu gia đình Y trung bình tăng hoặc giảm 0,699722 nghìn đồng khi thu nhập hộ gia đình tăng hoặc giảm 1 nghìn đồng
Trong MH1: = 0,699722 > 0 phù hợp với lí thuyết kinh tế
3 Trong mô hình được chọn, có hiện tượng vi phạm giả thiết nào không? (phương sai sai số thay đổi, đa cộng tuyến, tự tương quan)
- Phương sai sai số thay đổi:
Trang 15White Heteroskedasticity Test:
F-statistic 0.095267 Probability 0.909305
Obs*R-squared 0.201877 Probability 0.903989
Test Equation:
Dependent Variable: RESID^2
Method: Least Squares
Date: 09/16/20 Time: 21:09
Sample: 1 50
Included observations: 50
Variable Coefficient Std Error t-Statistic Prob
C 5.54E+08 7.25E+08 0.763442 0.4490
X2 -4340.703 22573.02 -0.192296 0.8483
X2^2 0.007314 0.149085 0.049062 0.9611
R-squared 0.004038 Mean dependent var 3.60E+08
Adjusted R-squared -0.038344 S.D dependent var 1.43E+09
S.E of regression 1.46E+09 Akaike info criterion 45.09718
Sum squared resid 1.00E+20 Schwarz criterion 45.21191
Log likelihood -1124.430 F-statistic 0.095267
Durbin-Watson stat 2.129858 Prob(F-statistic) 0.909305
KĐGT : = 0 (không có hiện tượng phương sai sai số thay đổi)
: 0 (có hiện tượng phương sai sai số thay đổi)
Nhận thấy: p(F) = 0,909305> = 0,05
Kết luận: Không đủ cơ sở bác bỏ giả thiết Vậy mô hình không có hiện tượng phương sai sai số thay đổi
- Đa cộng tuyến:
Vì mô hình 1 là mô hình 2 biến nên không có hiện tượng đa cộng tuyến
- Tự tương quan:
Breusch-Godfrey Serial Correlation LM Test:
F-statistic 0.425353 Probability 0.517455
Obs*R-squared 0.448445 Probability 0.503074