Bản chất của biến giả g• Trước đây chúng ta chỉ sử dụng biến giải thích định lượng.. Trong y g ụ g g ị ợ g g bài giảng này chúng ta đề cập trong mô hình biến giải thích định tính nhằm gi
Trang 1Chương 4 Hồi qui với biến giả
Trang 21 Bản chất của biến giả g
• Trước đây chúng ta chỉ sử dụng biến giải thích định lượng Trong y g ụ g g ị ợ g g
bài giảng này chúng ta đề cập trong mô hình biến giải thích định tính nhằm giải quyết các tình huống như: tìm hiểu sự khác biệt về giới tính trong việc thanh toán lương sự khác biệc về doanh số giữa
giới tính trong việc thanh toán lương, sự khác biệc về doanh số giữa các mùa trong năm, và sự khác biệt giữa hai giai đọan chính sách khác nhau
giả thể hiện các biến định tính
– Mô hình chỉ có biến giải thích là biến giả
– Mô hình có biến giải thích định lượng và biến giả
Trang 31 Bản chất của biến giả g
Xét: Y(định lượng) Í X(định lượng);
Xét: Y(định lượng) Í X(định lượng);
Trường hợp Y Í X(định lượng), A(định tính) ?
YGiả sử: - qui luật mùa
- qui luật thời vụ
thời kỳ
Y
- thời kỳ
• Để giải thích hiện tượng này,
người ta đưa vào mô hình
β
β1’
một biến giả, ký hiệu là D:
1 nếu cá thể i có dấu hiệu A1
0 ế á thể i ó dấ hiệ A
X
β1
A1 A2D=
0 nếu cá thể i có dấu hiệu A2
Trang 41 Bản chất của biến giả
Ví dụ:
Giả sử có 2 quá trình sản xuất (ký hiệu là quá trình sx A và quá trình sx B) để sản xuất ra một loại sản phNm Giả sử sản phNm thu được từ mỗi quá trình sản xuất là một đại lượng ngẫu nhiên có phân phối chuNn và có kỳ vọng khác
nhau nhưng phương sai như nhau Chúng ta có thể biểu thị quá trình sản xuất
đó như một phương trình hồi qui như sau:
yi = β1 + β2D + ui
yi β1 β2 itrong đó yi là sản lượng sản phNm ứng với quá trình sản xuất thứ i
D là biến giả nhận 1 trong 2 giá trị:
1 nếu sản lượng sản phNm thu được từ quá trình sx A
0 nếu sản lượng sản phNm thu được từ quá trình sx B Qua mô hình này chúng ta có thể biết được sản lượng trung bình do quá trình
D =
sx A có khác quá trình sx B hay không
Trang 51 Bản chất của biến giả g
• Kiểm định giả thiết Hị g 00: ββ22 =0 cung cấp kiểm định về giả thiết là không có g p ị g g
sự khác nhau về sản lượng do quá trình sản xuất A và B tạo ra
• Thủ tục biến giả có thể dễ dàng mở rộng cho trường hợp có nhiều hơn 2 phạm trù (ví dụ 3 quá trình sản xuất )
phạm trù (ví dụ 3 quá trình sản xuất )
Trang 62 Hồi qui với biến giả q g
• Phần này ta xét mô hình hồi qui chỉ có một biến lượng và một biến chất, với
số phạm trù nhiều hơn hoặc bằng 2 Trường hợp có nhiều biến lượng và một biến chất thì thủ tục được làm tương tự.
a- Trường hợp khi biến chất chỉ có 2 phạm trù:
Giả sử rằng chúng ta phải ước lượng mối quan hệ giữa tiền lương của một người lao động và số năm công tác của họ
người lao động và số năm công tác của họ
yi = β1 + β2xi +ui
Trong đó: yi = tiền lương hàng năm của một người lao động i.
xi = số năm công tác của một người lao động i.
Ở đây chúng ta hoàn toàn chưa nói là người lao động là nam hay nữ.
Bây giờ giả sử rằng chúng ta muốn tìm hiểu xem xem liệu có phải người lao y g g g g ệ p g động nữ bị phân biệt đối xử về việc trả lương của họ không?
Trang 72 Hồi qui với biến giả
• Ước lượng chung cho cả người lao động nam và nữ bằng cách xác địnhƯớc lượng chung cho cả người lao động nam và nữ bằng cách xác định một biến mới ghi nhận sự có mặt hay vắng mặt của thuộc tính "nữ “
Di = 0 nếu quan sát i thuộc về một người lao động nữ
Di = 1 nếu quan sát i thuộc về một người lao động nam
• Khi đó mô hình hồi qui có dạng như sau:
yi = β1 + β2Di + β3xi +ui
yi β1 + β2Di + β3xi +uiGiá trị kỳ vọng có điều kiện như sau:
E(y|Di =0)= β1 + β3xi nữE(y|Di =1)= (β1 + β2) + β3xi nam
Chúng ta thấy rằng các hệ số β nói lên điều gì?
Chúng ta thấy rằng các hệ số β j nói lên điều gì?
Trang 82 Hồi qui với biến giả
Chúng ta thấy rằng các hệ số β g y g ệ β j j nói lên điều gì? g
y Tiền lương của các lao động nam
iề l á l độ Tiền lương của các lao động nữ
β2
β1
Hệ số β2 là chênh lệch tung độ gốc Dễ dàng kiểm định xem liệu chênh lệch này có ý nghĩa thống kê
ha không: đơn giản là tính giá trị thống kê t cho β rồi so ới giá trị tới hạn tra bảng t* như chúng ta
x
β1
hay không: đơn giản là tính giá trị thống kê t cho β2 rồi so với giá trị tới hạn tra bảng t* như chúng ta
đã làm khi kiểm định ý nghĩa thống kê của các hệ số hồi qui
Trang 92 Hồi qui với biến giả
b- Trường hợp với một biến lượng và hai biến chất:
Giả sử rằng chúng ta phải ước lượng mối quan hệ giữa tiền lương của các đối tượng và số năm công tác của họ, bây giờ chúng ta giả thiết thêm
ằ ài iới tí h thì ù à l độ là iệ ũ ả h hưở tới
rằng, ngoài giới tính thì vùng mà lao động làm việc cũng ảnh hưởng tới thu nhập Như vậy ta sẽ có hai biến chất:
Trong đó:g yyii = thu nhập hàng năm của người lao động i.p g g g
xi = số năm công tác của người lao động i
Trang 102 Hồi qui với biến giả
b- Trường hợp với một biến lượng và hai biến chất:
1 nếu lao động của các doanh nghiệp miền Nam
0 nếu lao động không thuộc các doanh nghiệp miền Nam
D2 =
0 nếu lao động không thuộc các doanh nghiệp miền Nam
1 nếu lao động là nam
0 nếu lao động là nữ
D3 =
Phạm trù cơ cở bây giờ là người lao động thuộc các doanh nghiệp miền Trung Giả sử E(ui)=0, khi đó thu nhập trung bình của một lao động nữ ở 1 doanh nghiệp miền Trung là:g ệp g
E(y|D1 =0, D2 =0, D3 =0, xi)= β1 + β5xi
Trang 112 Hồi qui với biến giả
Ví dụ- trường hợp xét cả biến lượng
Dependent Variable: SALARY
Method: Least Squares
Adjusted R-squared j q 0.704963 S.D dependent var p 4179.426
S.E of regression 2270.152 Akaike info criterion 18.36827
Sum squared resid 2.42E+08 Schwarz criterion 18.51978
Log likelihood -464.3908 Durbin-Watson stat 1.414238
Trang 123 So sánh hai Hồi qui
Giả sử có hai bộ số liệu về X, Y:
• Bộ 1: có n1 quan sát
• Bộ 2: có n2 quan sát
Vậy có thể gộp 1&2 để phân tích X tác động đến Y trong mô hình
yi = β1 + β2xi +ui ?
Trang 133 So sánh hai Hồi qui
Với các giả thiết trên, kiểm định Chow được tiến hành như sau:
Trang 143 So sánh hai Hồi qui
Trang 153 So sánh hai Hồi qui
a- Kiểm định Chow:
Bước 3: Sử dụng tiêu chuNn F như sau:
)k2n
n,k(F
~)k2/(
RSS
k/)RSSRSS
(
So sánh:
)k2n
n/(
RSS 1 + 2 −
Fqs > Fα(k, n1 + n2 – 2k)
Nế iá t ị F tí h đ (F ) lớ h iá t ị F tới h (F ) thì t bỏ iả
Nếu giá trị F tính được (Fqs) lớn hơn giá trị F tới hạn (Fα) thì ta bỏ giả thiết 2 hồi qui là như nhau Điều này có nghĩa là 2 tập số liệu không gộp được
Trang 163 So sánh hai Hồi qui
a- Kiểm định Chow: Ví dụ:
Chúng ta sẽ xem xét hồi qui ở các thời đoạn khác nhau.
– Xem xét hành vi tiết kiệm trước và sau cuộc khủng hoảng dầu
Trang 173 So sánh hai Hồi qui
a- Kiểm định Chow: Ví dụ:
Chúng ta xem xét dữ liệu trong thời kỳ từ (1970-1995)
Biến phụ thuộc là tiết kiệm (Y), biến độc lập là thu nhập (X).
1 1
• Giai đoạn 1 (1970-1981):
• Giai đoạn 2 (1982-1995):
t t
Y = β1 + β2 + , T1+T2=26
2 1
2
1 β & β β β
H
Chúng ta sẽ kiểm định:
Hệ số chặn và hệ số góc là bằng nhau với cả hai mô hình
2 2
1 2
2 1
1 1
0 : β = β & β = β
H
Trang 183 So sánh hai Hồi qui
– RSS (Đối với toàn bộ cả bộ số liệu).
– RSS =RSS RSS RSS 1 1 +RSS RSS 2 2 (Đối với việc xét riêng từng bộ số liệu).(Đối với việc xét riêng từng bộ số liệu)
• F-statistic:
) k 2 n
n k ( F
k / ) RSS RSS
(
) k 2 n
n /(
RSS
21
−
+
− +
=
Trang 193 So sánh hai Hồi qui
Trang 203 So sánh hai Hồi qui
a- Kiểm định Chow: Ví dụ:
Dependent Variable: SAVINGS Method: Least Squares
Date: 11/05/02 Time: 12:11 Sample: 1970 1995
RSS Cả giai đoạn
Sample: 1970 1995 Included observations: 26 SAVINGS=C(1)+C(2)*INCOME
Coefficient Std Error t-Statistic Prob
C(1) 62.42267 12.76075 4.891772 0.0001 C(2) 0.037679 0.004237 8.893776 0.0000
R squared 0 767215 Mean dependent var 162 0885 R-squared 0.767215 Mean dependent var 162.0885 Adjusted R-squared 0.757515 S.D dependent var 63.20446 S.E of regression 31.12361 Akaike info criterion 9.787614 Sum squared resid 23248.30 Schwarz criterion 9.884391 Log likelihood -125 2390 Durbin-Watson stat 0 859717 Log likelihood 125.2390 Durbin Watson stat 0.859717
Trang 213 So sánh hai Hồi qui
a- Kiểm định Chow: Ví dụ: Dependent Variable: SAVINGS Method: Least Squares
Date: 11/05/02 Time: 12:11
S l 1970 1981 Sample: 1970 1981 Included observations: 12 SAVINGS=C(1)+C(2)*INCOME
Coefficient Std Error t-Statistic Prob C(1) 1.016117 11.63771 0.087313 0.9321
C(2) 0 080332 0 008367 9 601576 0 0000
Xét với bộ 1: RSS1
C(2) 0.080332 0.008367 9.601576 0.0000 R-squared 0.902143 Mean dependent var 106.4417 Adjusted R-squared 0.892358 S.D dependent var 40.72222 S.E of regression 13.36051 Akaike info criterion 8.173495 Sum squared resid 1785.032 Schwarz criterion 8.254313 Log likelihood -47.04097 Durbin-Watson stat 0.864230
Dependent Variable: SAVINGS Method: Least Squares Date: 11/05/02 Time: 12:12 Sample: 1982 1995 Included observations: 14 SAVINGS C(1) C(2)*INCOME
Xét ới bộ 2 RSS2 SAVINGS=C(1)+C(2)*INCOME
Coefficient Std Error t-Statistic Prob
C(1) 153.4947 32.71227 4.692266 0.0005 C(2) 0.014862 0.008393 1.770773 0.1020
R squared 0 207169 Mean dependent var 209 7857
Xét với bộ 2: RSS2
R-squared 0.207169 Mean dependent var 209.7857 Adjusted R-squared 0.141100 S.D dependent var 31.15670 S.E of regression 28.87505 Akaike info criterion 9.695396 Sum squared resid 10005.22 Schwarz criterion 9.786690
Trang 223 So sánh hai Hồi qui
• Ước lượng hồi qui:
– Gđoạn 1: RSS1 = 1,785.03– Gđoạn 2: RSS2 = 10,005.22
– Gđoạn 1: RSS1 = 1,785.03– Gđoạn 2: RSS2 = 10,005.22
10 22
/ 252
790 ,
11
22 ,
F
– Không thể gộp được hai bộ số liệu
Trang 233 So sánh hai Hồi qui
Trang 243 So sánh hai Hồi qui
Ví dụ: Thủ tục biến giả
• Chúng ta đã thực hiện kiểm định này Chúng ta đã thực hiện kiểm định này
• Tiết kiệm (Y), thu nhập (X).
2 2
1 2
2 1
1 1
0 : β = β & β = β
H
Trang 253 So sánh hai Hồi qui
D =0 cho giai đoạn 1: Y = α + β X + u
• Hồi qui với biến giả, xét khác nhau cả hệ số chặn và hệ số góc
Dt=0 cho giai đoạn 1: Yt = α1 + β1X t + ut
Dt=1 cho giai đoạn 2: Yt = ( α1 + α2 ) ( + β1 + β2 ) X t + ut
Hồi qui với biến giả, xét khác nhau cả hệ số chặn và hệ số góc
Dt=0 hay Dt=1 (hồi qui không giới hạn).
• Hồi qui giới hạn là xét khi có cùng hệ số chặn và hệ số góc đối với cả 2 giai đoạn ( β 0 )
với cả 2 giai đoạn ( ).
• Chạy hồi qui đối với cả giai đoạn bằng việc sử dụng biến giả α2 = β2 = 0
Trang 263 So sánh hai Hồi qui
.
.
.
Trang 273 So sánh hai Hồi qui
Ví dụ: Thủ tục biến giả tiết kiệm và thu nhập
Dependent Variable: SAVINGS Method: Least Squares
Date: 10/27/03 Time: 15:42 Sample: 1970 1995
Hồi qui bằng biến giả
Sample: 1970 1995 Included observations: 26 SAVINGS=C(1)+C(2)*DUM+C(3)*INCOME+C(4)*DUM*INCOME
Coefficient Std Error t-Statistic Prob C(1) 1.016117 20.16483 0.050391 0.9603
C(2) 152.4786 33.08237 4.609058 0.0001 C(3) 0 080332 0 014497 5 541347 0 0000
Y = α + α D + β X + β D X + u
C(3) 0.080332 0.014497 5.541347 0.0000 C(4) -0.065469 0.015982 -4.096340 0.0005 R-squared 0.881944 Mean dependent var 162.0885 Adjusted R-squared 0.865846 S.D dependent var 63.20446 S.E of regression 23.14996 Akaike info criterion 9.262501 Sum squared resid 11790.25 Schwarz criterion 9.456055 Log likelihood -116.4125 Durbin-Watson stat 1.648454
Included observations: 26 SAVINGS=C(1)+C(2)*INCOME
Hồi qui giới hạn:
0 : 2 2 0
H α = β =
t t
t X u
Y = α1+ β1 +
S.E of regression 31.12361 Akaike info criterion 9.787614 Sum squared resid 23248.30 Schwarz criterion 9.884391 RSSR
Trang 283 So sánh hai Hồi qui
Trang 293 So sánh hai Hồi qui
10 22
/ 252 790
11
2 / 252
790 ,
11 30
248 ,
23
* 22 ,
F
22 / 252
790 ,
11
,
Do F2,22c=3.44, bác bỏ H0 : α2 = β2 = 0
Hai giai đoạn là khác nhau cả hệ số chặn và hệ số góc
Từ hồi qui với biến giả, chúng ta có thể biết được hệ số chặn và
Trang 304 Hồi qui tuyến tính từng khúc
Xét trường hợp tiêu dùng trước và sau khi chuyển đổi?
Phân tích hồi qui tuyến tính từng khúc cho phép thay đổi độ dốc nhưng hạn chế đường thẳng được ước lượng vẫn liên tục:
Trang 314 Hồi qui tuyến tính từng khúc
Gọi t0 là mốc thời gian chuyển đổi, ta xét mô hình:
yt = β1 + β2xt + β3(xt – xto)Dt +ut
Lấy kỳ vọng có điều kiện cả 2 vế của phương trình:
E(ui)=0 ta có:
E(y|Dt =0, xi)= β1 + β2xtE(y|Dt =1, xi)= β1+ (β2 + β3)xt – β3xto
Ta thấy rằng β3 = 0 thì phương trình trên sẽ trở thành phương trình đường
thẳng,vì vậy kiểm định β3 = 0 sẽ cung cấp cho ta kiểm định đơn giản về
sự thay đổi cấu trúc
Trang 325 Sử dụng biến giả trong phân tích mùa
• Nhiều dữ liệu chuỗi thời gian bị tác động bởi yếu tố mùa (sự dao ệ g ị ộ g y ( ự động).
– Sản lượng bán của cửa hàng (Noel, ngày lễ tết)
Cầ ề iề d lị h
– Cầu về tiền, du lịch,
• Chúng ta cần hiệu chỉnh yếu tố mùa trong các phân tích.
• Ta sẽ xem xét việc sử dụng biến giả trong phân tích mùa
• Ta sẽ xem xét việc sử dụng biến giả trong phân tích mùa
Trang 335 Sử dụng biến giả trong phân tích mùa
Coefficient Std Error t-Statistic Prob
C(1) 1222.125 59.99041 20.37200 0.0000 C(2) 245.3750 ( ) 84.83926 2.892234 0.0073 C(3) 347.6250 84.83926 4.097454 0.0003 C(4) -62.12500 84.83926 -0.732267 0.4701 R-squared 0.531797 Mean dependent var 1354.844 Adjusted R-squared 0.481632 S.D dependent var 235.6719
S E of regression 169 6785 Akaike info criterion 13 22216 S.E of regression 169.6785 Akaike info criterion 13.22216 Sum squared resid 806142.4 Schwarz criterion 13.40537 Log likelihood -207.5545 Durbin-Watson stat 0.392512
α1: Sản lượng bán tủ lạnh trung bình của quí 1
α1: Sả ượ g bá ủ ạ u g b của qu
α2,α3,α4: Sự khác biệt về sản lượng giữa các qui với quí 1
Trang 346 Ví dụ
Ví dụ 1
Ví dụ 2
Ví dụ 3