Giới thiệu về MH Binary Logistic Hồi quy Binary Logistic sử dụng biến phụ thuộc dạng nhị phân để ước lượng xác suất một sự kiện sẽ xảy ra với những thông tin Ứng dụng MH Binary Logistic
Trang 1CHƯƠNG 3: HỒI QUY
BINARY LOGISTIC
CHƯƠNG 3: HỒI QUY
BINARY LOGISTIC
ThS Đỗ Hoàng Oanh
Nội dung
03
Nội dung
02
Nội dung
01 ỨNG DỤNG CỦA HỒI QUY BINARY LOGISTIC
NỘI DUNG MÔ HÌNH BINARY LOGISTIC
THỰC HÀNH TRÊN SPSS
Tiến trình thực hiện
Ý nghĩa kết quả
Vận dụng mô hình để dự báo
TIÊU ĐỀ
I Giới thiệu về MH Binary Logistic
Hồi quy Binary Logistic sử dụng biến phụ
thuộc dạng nhị phân để ước lượng xác suất
một sự kiện sẽ xảy ra với những thông tin
Ứng dụng MH Binary Logistic
Có nhiều hiện tượng chúng ta cần dự đoán khả năng xảy ra một sự kiện nào đó mà ta quan tâm.
Thí dụ:
- Sản phẩm mới được chấp nhận hay không
- Người vay trả được nợ hay không
- Mua hay không mua ?
Trang 2Phương pháp LPM (Linear Probability Model) là phương pháp sử dụng
công cụ OLS vào dữ liệu có biến phụ thuộc là biến giả (dummy)
Yi= β1+ β2Xi+ ui
Trong đó Y =1 có sự kiện xảy ra, Y=0 không có xảy ra
Ý nghĩa β2>0 : Trong điều kiện các yếu tố khác không đổi, khi X tăng 1
đơn vị thì biến phụ thuộc Y sẽ tăng β2 đơn vị Tuy nhiên Y chỉ nhận 2 giá
trị
Tại sao không dùng OLS cho MH này?
Giả thiết kỳ vọng của u: E(u|X)=0
Yi= β1+ β2Xi+ ui E(Yi|X) = β1+ β2Xi E(Y) = 1 * P(Y=1) + 0* P(Y=0) = P(Y=1) E(Y=1) = P(Y=1|X) = β1+ β2Xi Xác suất quan sát được khả năng xảy ra khi Y=1 là mô hình tuyến tính của biến giải thích X
TD: β2= -0.1, nếu X tăng 1 đơn vị thì xác suất xảy ra sự kiện (Y=1) sẽ giảm 10%
Tại sao không dùng OLS cho MH này? (tt)
Thực hiện trên SPSS
Biến phụ thuộc Y theo phân phối Bernoulli với xác suất Pi= β1+ β2Xinên u cũng theo phân phối Bernoulli:
- Xác suất: P(ui) = β1+ β2Xi
- Phương sai: Var(ui)= P(ui) x [1 - P(ui)]
Do đó, phương sai của u là phương sai sai số có thay đổi (phụ thuộc vào biến X)
=> Vi phạm giả định OLS.
Tại sao không dùng OLS cho MH này? (tt)
Trang 3Tóm lại, không nên dùng OLS bởi vì:
• Khi biến phụ thuộc ở dạng nhị phân thì không thể phân tích với
dạng hồi quy thông thường vì làm như vậy sẽ xâm phạm các giả
định, rất dễ thấy là khi biến phụ thuộc chỉ có 2 biểu hiện thì thật
không phù hợp khi giả định rằng phần dư có phân phối chuẩn,
mà thay vào đó sẽ có phân phối nhị thức, điều này sẽ làm mất
hiệu lực của các kiểm định thống kê trong phép hồi quy thông
thường
• Một khó khăn khác khi dùng hồi quy tuyến tính thông thường là
giá trị dự đoán được của biến phụ thuộc không thể được diễn
dịch như xác suất (giá trị ước lượng của biến phụ thuộc trong
hồi quy binary logistic phải rơi vào khoảng (0;1)
II Mô hình hồi quy Binary Logistic:
• Thông tin chúng ta cần thu thập về biến phụ thuộc là 1 sự kiện nào đó có xảy ra hay không, biến phụ thuộc Y lúc nào cũng có hai giá trị là 0 và 1 (với 0 là không xảy ra sự kiện
ta quan tâm và 1 là có xảy ra)
• Từ biến phụ thuộc nhị phân này, một thủ tục sẽ được dùng
để dự đoán xác suất sự kiện xảy ra theo quy tắc nếu xác suất được dự đoán lớn hơn 0.5 thì kết quả dự đoán sẽ cho
là “có” xảy ra sự kiện, ngược lại thì kết quả dự đoán sẽ là
“không”
II Mô hình hồi quy Binary Logistic (tt):
•Khác với phương pháp bình phương tối thiểu phần dư
OLS, mô hình hồi quy dựa trên hàm phân phối xác suất
Logit dùng phương pháp xác suất tối đa (Maximum
Likelihood Estimation – MLE)
• Nếu như hàm mục tiêu của phương pháp OLS là tối thiểu
tổng bình phương phần dư của biến phụ thuộc, còn hàm
II Mô hình hồi quy Binary Logistic (tt):
Xác suất quan sát được 1 phụ nữ có đi làm hay không với mối quan hệ biến độc lập là thu nhập kỳ vọng khi đi làm có thể viết như sau:
P(Y|X) = [G(.)]Yx [1-G(.)]1-Y
Nếu Y =1 thì P(Y|X)= G(.)
Trang 4II Mô hình hồi quy Binary Logistic (tt):
G(.) là hàm đơn điệu do G(.) là hàm phân phối xác suất tích
lũy, G(.) chỉ tăng hoặc giảm theo biến giải thích), có thể đơn
giản hóa bằng cách chuyển đổi từ hàm tích sang hàm
logarithm:
li=ln[P(.)]=Yix ln[G(.)] + [1 – Yi] x ln[1 – G(.)]
và việc ước lương theo phương pháp MLE được thực hiện
bằng cách tối đa hóa tổng xác suất L
Max L = Σ{Yi* ln[G(.)] + [1 – Yi] * ln[1 – G(.)] } => βMLE
Với Y là biến phụ thuộc, G(.) là hàm phân phối xác suất tích
lũy G(β + β Xi)
II Mô hình hồi quy Binary Logistic (tt):
Mô hình hàm Binary Logistic như sau:
xác suất xảy ra sự kiện Y=1 khi biến độc lập X có giá trị cụ thể là Xi.
II Mô hình hồi quy Binary Logistic (tt):
Xác suất xảy ra sự kiện:
Vậy thì xác suất không xảy ra sự kiện:
P(Y = 0|X) = 1 − P(Y = 1) = 1 −
1 +
II Mô hình hồi quy Binary Logistic (tt):
Thực hiện so sánh giữa xác suất một sự kiện xảy ra với xác suất sự kiện đó không xảy ra, tỷ lệ chênh lệch này có thể được thể hiện trong công thức:
P(Y = 1) P(Y = 0)=1 − =
1 +
1 − 1 +
Trang 5II Mô hình hồi quy Binary Logistic:
Lấy log cơ số e hai vế của phương trình trên rồi thực hiện biến đổi vế phải
ta được kết quả là:
P(Y = 1)
II Mô hình hồi quy Binary Logistic (tt):
Đối với hồi quy Logit, ( ) = và ( ) =
Sau khi biến đổi, điều kiện bậc nhất đối với β2là:
Sau khi biến đổi, điều kiện bậc nhất đối với β2là:
II Mô hình hồi quy Binary Logistic (tt):
Trong phương pháp MLE, do tính phi tuyến của điều kiện
bậc nhất của hai công thức trên, cho nên, thông thường
nhà nghiên cứu sử dụng phần mềm chuyên dụng để ước
lượng β1và β2
Từ giả định xác suất của: P(Y|X) =G(β + β Xi)
Với những thay đổi nhỏ của biến X thì tác động biên lên
xác suất có thể được tính như sau:
II Mô hình hồi quy Binary Logistic tổng
quát:
=
1 + ∗ ∗ ⋯ ∗
Đặt:
= + ∗ + ∗ + ⋯ + ∗
Trang 6II Mô hình hồi quy Binary Logistic tổng
quát:
Để tính tác động biên của X ibất kỳ ta có:
Trong đó:
Từ (1) và (2) => = ∗ ∗ ( − )
File lfp.xls ghi nhận 753 quan sát về các yếu tố ảnh hưởng đến việc
một phụ nữ có đi làm hay không Trong đó, các biến giải thích cụ thể như sau:
lfp: phụ nữ có đi làm hay không (= 1 nếu có đi làm; 0 nếu khác) k5: số con dưới 6 tuổi của gia đình (người)
k618: số con trong độ tuổi từ 6 đến 18 của gia đình (người) age: tuổi của phụ nữ hay người vợ (tuổi)
wc: phụ nữ có bằng cấp hay không (= 1nếu phụ nữ có bằng cấp; 0
nếu khác )
hc: chồng có bằng cấp hay không (= 1 nếu chồng có bằng cấp; 0 –
nếu khác )
lwg: ln của thu nhập kỳ vọng của phụ nữ nếu đi làm Thu nhập kỳ
vọng được tính là USD/1 giờ làm việc
inc: thu nhập của hộ gia đình, sau khi loại trừ đi thu nhập của phụ
nữ (ngàn USD/năm)
Ý nghĩa của hệ số hồi quy
Ý nghĩa của hệ số hồi quy
k5 0.24
-1.46291 0.0000 Có ý nghĩa thống kê k618 1.35
-0.06457 0.3423
Không có ý nghĩa thống kê
age 42.54
-0.06287 0.0000 Có ý nghĩa thống kế
wc 0.28
0.807274 0.0004 Có ý nghĩa thống kê
hc 0.39
0.111734 0.5876
Không có ý nghĩa thống kê
lwg 1.0971
0.604693 0.0001
Có ý nghĩa thống kê
Trang 7Đối với hồi quy tuyến tính sử dụng kiểm định t để kiểm định giả thuyết H0: k=0 Còn đối với hồi quy Binary Logistic, đại lượng Wald Chi Square được sử dụng để kiểm định ý nghĩa thống kê của hệ số hồi quy tổng thể
Giá trị p (sig.) nhỏ hơn mức ý nghĩa = 0,05 bác bỏ
H0 Như vậy các hệ số hồi quy tìm được có ý nghĩa và mô hình được sử dụng tốt
II Mô hình hồi quy Binary Logistic:
2.1 Kiểm định hệ số hồi quy
II Mô hình hồi quy Binary Logistic:
2.2 Độ phù hợp của mô hình
Đo lường độ phù hợp tổng quát của mô hình Binary
Logistic được dựa trên chỉ tiêu -2LL (viết tắt của -2 log
likelihood), thước đo có ý nghĩa giống như RSS (residual
sum of square) trong OLS
-2LL càng nhỏ càng thể hiện độ phù hợp cao
II Mô hình hồi quy Binary Logistic:
2.2 Độ phù hợp của mô hình (tt)
Trang 82.2 Độ phù hợp của mô hình (tt)
Bảng Omnibus Tests of Model Coefficient
H0:
2.2 Độ phù hợp của mô hình (tt)
Hosmer and Lemeshow test
H0:
VẬN DỤNG MÔ HÌNH HỒI QUY BINARY
LOGISTIC CHO MỤC ĐÍCH DỰ BÁO
Mô hình hồi quy Binary Logistic có thể được áp dụng
để dự báo khả năng trả nợ khi đối tượng đi vay hay dự
báo nhu cầu sử dụng một sản phẩm cụ thể nào đó Ta sử
dụng công thức sau:
=
1 + ( ⋯ )
II Mô hình hồi quy Binary Logistic (tt):
• Thông tin chúng ta cần thu thập về biến phụ thuộc là 1 sự kiện nào đó có xảy ra hay không, biến phụ thuộc Y lúc nào cũng có hai giá trị là 0 và 1 (với 0 là không xảy ra sự kiện
ta quan tâm và 1 là có xảy ra)
• Từ biến phụ thuộc nhị phân này, một thủ tục sẽ được dùng
để dự đoán xác suất sự kiện xảy ra theo quy tắc nếu xác suất được dự đoán lớn hơn 0.5 thì kết quả dự đoán sẽ cho
là “có” xảy ra sự kiện, ngược lại thì kết quả dự đoán sẽ là
“không”
Trang 92.3 Khả năng dự báo của mô hình (tt)
Dự báo mô hình binary logistic
Kết quả cho thấy :