Thứ nhất, mô hình LPM giả định rằng xác suất hút thuốc có mối quan hệ tuyến tính với giá trị của biến giải thích, không cần biết giá trị đó lớn hoặc nhỏ bao không có gì đảm bảo rằng các
Trang 1Chương 8 Các mô hình logit và probit
Domadar N Gujarati (Econometrics by example, 2011)
Người dịch và diễn giải: Phùng Thanh Bình, MB (25/12/2017)
Biến phụ thuộc trong hầu hết các mô hình hồi quy đều bằng số, thường được
đo theo một thang đo tỷ lệ (ratio scale) Nhưng trong nhiều ứng dụng thì các biến phụ thuộc là định danh (nominal) theo nghĩa rằng chúng biểu hiện các phân loại (categories), như nam hoặc nữ, có gia đình hoặc chưa có gia đình,
có việc làm hoặc thất nghiệp, trong lực lượng lao động hoặc không thuộc lực lượng lao động
Giả sử chúng ta có dữ liệu về những người trưởng thành, một số trong họ hút thuốc và một số khác thì không Hơn nữa, giả sử rằng chúng ta muốn biết các nhân tố nào quyết định việc một người hút thuốc hay không Vì thế biến tình trạng hút thuốc là một biến định danh; hoặc là bạn hút thuốc hoặc là bạn không hút thuốc Chúng ta mô hình hóa các biến định danh như thế như thế nào? Chúng ta có thể sử dụng các kỹ thuật hồi quy cổ điển hay chúng ta cần các kỹ thuật chuyên biệt?
Các mô hình hồi quy liên quan đến các biến có thang đo định danh là một ví dụ của một lớp các mô hình được gọi chung là các mô hình hồi quy phản ứng định tính (qualitative response regression models) Có rất nhiều loại mô hình như thế, nhưng trong chương này chúng ta sẽ xem xét một loại đơn giản nhất trong các mô hình đó, có tên gọi là các mô hình hồi quy có biến phụ thuộc là biến giả
Trang 2hoặc biến nhị phân (binary or dichotomous) Trong các chương tiếp theo, chúng
ta sẽ xem xét các loại khác trong các mô hình hồi quy phản ứng định tính Mục tiêu của chương này là nhằm cho thấy rằng mặc dù các mô hình hồi quy biến nhị phân có thể được ước lượng theo phương pháp bình phương bé nhất, nhưng các mô hình như thế thường được ước lượng theo các phương pháp đặc biệt, chẳng hạn như logit và probit Trước hết chúng ta sẽ cho thấy tại sao phương pháp bình phương bé nhất không thích hợp và sau đó xem xét các mô hình logit và probit Chúng ta bắt đầu bằng một ví dụ
8.1 Một ví dụ minh họa: hút hay là không hút
này được dung cấp trong tập tin Table 8.1, có thể được tìm thấy trên trang web đồng hành cùng cuốn sách
Các biến được sử dụng trong phân tích như sau đây:
Smoker = 1 cho những người hút thuốc và 0 cho những người không hút thuốc
Education = số năm đi học
Income = thu nhập gia đình
Pcigs = giá thuốc hút ở từng bang riêng lẻ vào năm 1979
Instrumental variable estimation of count data models: an application to models of cigarette smoking behavior,
The Review of Economics and Statistics, 1997
Trang 38.2 Mô hình xác suất tuyến tính (LPM)
Vì biến phụ thuộc, người hút thuốc, là một biến định danh, nên nó nhận một giá trị bằng 1 (cho người hút thuốc) và bằng 0 (cho người không hút thuốc) Giả sử chúng ta như thường lệ áp dụng phương pháp bình phương bé nhất thông thường (OLS) để xác định hành vi hút thuốc trong mối quan hệ với các biến về tuổi, giáo dục, thu nhập gia đình, và giá thuốc Nghĩa là, chúng ta sử dụng mô hình sau đây:
Để đơn giản, chúng ta viết lại như sau:
Mô hình (8.2) được gọi là mô hình xác suất tuyến tính (LPM – linear probability model) bởi vì kỳ vọng có điều kiện của biến phụ thuộc (tình trạng hút thuốc), khi
có điều kiện (conditional probability) mà biến cố (tức có hút thuốc) sẽ xảy ra2
Sử dụng Eviews, chúng ta có được kết quả trong Bảng 8.2 Chúng ta hãy phân tích các kết quả trong bảng này
Lưu ý rằng tất cả các biến, trừ thu nhập, đều có ý nghĩa thống kê ít nhất ở mức
ý nghĩa 10%
Tuổi, giáo dục, và giá thuốc có tác động âm lên hút thuốc, điều này có thể không phải là một kết quả ngạc nhiên Tất cả các biến giải thích đồng thời có ý nghĩa thống kê, vì giá trị ước lượng của thống kê F 12.00 có một giá trị xác suất p
2 Nếu P i = Pr(Y i = 1) và (1 - P i ) = Pr(Y i = 0), thì giá trị kỳ vọng của Y i = E(Y i ) = 1.P i + 0.(1 - P i ) = P i
Trang 4hầu như bằng 0 Nhớ lại rằng giá trị F dùng để kiểm định giả thuyết rằng tất cả các hệ số độ dốc đồng thời bằng 0
Bảng 8.2: Mô hình LPM về hút hay là không hút thuốc
Vì chúng ta ước lượng một mô hình xác suất tuyến tính, nên việc giải thích các
hệ số hồi quy là như sau Nếu chúng ta giữ nguyên tất cả các biến khác, xác suất hút thuốc giảm với tỷ lệ 0.005 khi tăng thêm một tuổi, có thể điều này là
do tác động xấu của hút thuốc lên sức khỏe Tương tự, khi các yếu tố khác được giữ nguyên, tăng số năm đi học thêm một năm sẽ giảm xác suất hút thuốc khoảng 0.02 Tương tự, nếu giá thuốc tăng thêm một đôla, thì xác suất hút thuốc
như rất thấp, nhưng chúng ta đừng đặt quan trọng quá nhiều vào thống kê này bởi vì biến phụ thuộc là biến định danh, chỉ nhận giá trị 1 và 0
tương tác (interaction terms), như tuổi nhân với giáo dục, hoặc giáo dục nhân
Trang 5với thu nhập, hoặc đưa thêm một biến bình phương của giáo dục hoặc bình phương của tuổi vào mô hình để xem liệu có tác động phi tuyến của những biến này lên hút thuốc hay không Nhưng không có cơ sở nào để làm điều này, bởi
vì LPM bản thân nó có nhiều hạn chế
Thứ nhất, mô hình LPM giả định rằng xác suất hút thuốc có mối quan hệ tuyến tính với giá trị của biến giải thích, không cần biết giá trị đó lớn hoặc nhỏ bao
không có gì đảm bảo rằng các giá trị xác suất ước lượng từ mô hình LPM sẽ nằm trong các giới hạn này Điều này là bởi vì OLS không tính đến sự ràng buộc
định thông thường rằng hạng nhiễu theo phân phối chuẩn không thể được thỏa
mô hình LPM có phương sai thay đổi, điều này làm cho các kiểm định ý nghĩa truyền thống không thể tin cậy được
Vì tất cả các lý do này, mà mô hình LPM không phải là sự lựa chọn ưa thích để
mô hình hóa các biến nhị phân Các mô hình thay thế được thảo luận trong lý thuyết là mô hình logit và mô hình probit
8.3 Mô hình logit
Trong ví dụ về người hút thuốc, mục tiêu chính của chúng ta là ước lượng xác suất hút thuốc, khi cho trước các giá trị của các biến giải thích Khi xây dựng
trị của (các) biến giải thích thay đổi, thì xác suất ước lượng luôn nằm trong
Trang 6
Trước hết chúng ta xem xét mô hình logit bởi vì nó tương đối đơn giản về mặt toán học
Giả sử trong ví dụ của chúng ta, quyết định của một cá nhân có hút thuốc hay
như sau:
Trong đó, i = cá nhân thứ i, u = hạng nhiễu, và BX như được định nghĩa trong phương trình (8.2)
Nhưng chỉ số không thể quan sát có quan hệ như thế nào với quyết định thực
sự là hút hay không hút? Thật hợp lý để giả định rằng:
ta không có gợi ý rằng hút thuốc là tốt hay xấu cho sức khỏe, mặc dù có nhiều nghiên cứu y khoa khuyến cáo rằng hút thuốc có thể xấu cho sức khỏe
Để làm cho lựa chọn này có thể thực hiện được, chúng ta có thể nghĩ theo xác suất của việc thực hiện một lựa chọn, ví dụ lựa chọn hút thuốc (tức Y = 1):
Trang 7
Bây giờ xác suất này phụ thuộc vào phân phối xác suất của Yi, đến lượt nó lại
này là đối xứng quanh giá trị trung bình (bằng 0) của nó, thì phương trình (8.4)
có thể được viết lại là:
mà một biến ngẫu nhiên nhận một giá trị nhỏ hơn một giá trị được xác định nào
đó được cho bởi hàm phân phối tích lũy (CDF – cumulative distribution function)
logistic (logistic probability distribution), đối với ví dụ của chúng ta nó có thể được viết lại như sau:
5 Lưu ý rằng B là cố định và phi ngẫu nhiên và các giá trị X được cho trước Vì thế, biến thiên trong Y i xuất phát
từ biến thiên trong u i
F(X) = Pr(X x), trong đó x là một giá trị cụ thể của X Cũng nhắc lại rằng nếu bạn vẽ đồ thị CDF, nó trông giống như một hình chữ S kéo dài (elongated S)
Trang 8Xác suất của Y = 0, nghĩa là, một người không phải là người hút thuốc, được cho bởi:
Biến đổi phương trình (8.9)?
Chúng ta ước lượng mô hình (8.7) như thế nào, vì nó là phi tuyến không chỉ
chuyển hóa đơn giản để làm cho mô hình tuyến tính trong Xs và các hệ số Lấy
tỷ số của các phương trình (8.7) và (8.9), nghĩa là xác suất mà một người là người hút thuốc đối với xác suất mà người đó không phải là người hút thuốc, chúng ta có:
thuốc sẽ tăng tiêu dùng của họ cho thuốc lá với một mức giảm dần bởi vì quay luật hiệu suất giảm dần (law of diminishing returns) Điều này đúng với hầu hết các hàng hóa thông thường
Trang 9số của xác suất mà một người là người hút thuốc so với xác suất mà người đó không phải là người hút thuốc
Lấy log (tự nhiên) của phương trình (8.10), chúng ta có được một kết quả rất thú vị, đó là:
Phương trình (8.11) phát biểu rằng log của tỷ số odds là một hàm tuyến tính
vì thế có tên là mô hình logit (logit model) cho các mô hình giống như (8.11) Điều thú vị mà ta quan sát thấy rằng mô hình xác suất tuyến tính được thảo
Trang 10Một số tính chất của mô hình logit như sau:
mặc dù các xác suất nằm giữa 0 và 1, nhưng logit là không có giới hạn
thích tăng, tỷ số odds của hút thuốc tăng, trong khi đó nếu nó âm, thì tỷ
số odds của hút thuốc giảm
4 Sự giải thích mô hình logit ở (8.11) như sau: mỗi hệ số dốc cho biết log của odds ủng hộ việc hút thuốc thay đổi khi giá trị của biến X thay đổi một đơn vị
5 Một khi các hệ số của mô hình logit được ước lượng, chúng ta có thể dễ dàng tính các xác suất của hút thuốc, chứ không chỉ có tỷ số odds của hút thuốc, từ (8.7)
6 Trong mô hình LPM, hệ số dốc đo lường ảnh hưởng biên (marginal effect) của một thay đổi đơn vị trong biến giải thích lên xác suất hút thuốc, khi giữ nguyên các biến khác Điều này không đúng với mô hình logit, vì ảnh hưởng biên của một sự thay đổi đơn vị trong biến giải thích không chỉ phụ thuộc vào hệ số của biến đó, mà còn phụ thuộc vào mức xác suất từ đó
mà sự thay đổi được đo lường Nhưng mức xác suất phụ thuộc vào các
mềm thống kê như Eviews và Stata có thể tính toán các ảnh hưởng biên với các hướng dẫn đơn giản
Bây giờ câu hỏi đặt ra là: chúng ta ước lượng các tham số của mô hình logit như thế nào?
chain rule): P i /X i = P i /Z i Z i /X i
Trang 11Ước lượng mô hình logit
Việc ước lượng mô hình logit phụ thuộc vào loại dữ liệu có sẵn cho phân tích
Có hai loại dữ liệu có sẵn: dữ liệu ở cấp độ cá nhân, hoặc vi mô, nhưng trong trường hợp ví dụ về người hút thuốc, và dữ liệu ở cấp độ nhóm Trước hết chúng
ta sẽ xem xét trường hợp dữ liệu ở cấp độ cá nhân
Dữ liệu cấp độ cá nhân
Đối với ví dụ về người hút thuốc của chúng ta, chúng ta có dữ liệu về 1.196 cá nhân Vì thế, mặc dù mô hình logit là tuyến tính, nhưng nó không thể được ước
hút thuốc Đây là các biểu thức không xác định Vì thế, để ước lượng mô hình logit chúng ta phải dựa vào các phương pháp ước lượng khác Phương pháp phổ biến nhất với các tính chất thống kê hấp dẫn là phương pháp hợp lý tối đa
hút thuốc, kết quả này có được từ Eviews (Bảng 8.3)
Chúng ta hãy phân tích các kết quả này Các biến tuổi và giáo dục có ý nghĩa thống kê cao và có dấu đúng như kỳ vọng Khi tuổi tăng, thì giá trị của logit giảm, có lẽ do các quan tâm về sức khỏe – nghĩa là, khi người ta lớn tuổi, thì họ
ít có khả năng hút thuốc Tương tự, người có trình độ giáo dục cao hơn thì ít có
9 Một thảo luận dễ đọc về ML, xem Gujarati/Porter, op cit
Trang 12khả năng hút thuốc, có lẽ do hiểu biết về ảnh hưởng xấu của hút thuốc Giá thuốc lá có dấu âm như kỳ vọng và có ý nghĩa ở mức 7% Khi các yếu tố khác được giữ nguyên, thì giá thuốc lá càng cao, thì xác suất hút thuốc càng thấp Thu nhập không có tác động có ý nghĩa thống kê lên việc hút thuốc, có lẽ bởi vì chi tiêu cho thuốc lá có thể chiếm một tỷ phần nhỏ trong thu nhập của gia đình Bảng 8.3: Mô hình logit về quyết định hút hay là không hút
Giải thích các hệ số khác nhau như sau: khi giữ các biến khác không đổi, nếu,
ví dụ giáo dục tăng thêm một năm, thì trung bình giá trị logit giảm khoảng 0.09, nghĩa là log của tỷ số odds ủng hộ việc hút thuốc giảm khoảng 0.09 Các hệ số khác cũng được giải thích một cách tương tự
Nhưng ngôn ngữ logit không phải là ngôn ngữ thường ngày Điều mà chúng ta muốn biết là xác suất của việc hút thuốc, khi cho trước các giá trị của các biến giải thích Nhưng điều này có thể được tính từ phương trình (8.7) Để minh họa,
Trang 13chúng ta chọn người thứ 2 từ Table 8.1 Dữ liệu của người này như sau: tuổi =
28, giáo dục = 15, thu nhập = 12.500 và giá thuốc năm 1979 = 60 Thế các giá trị này vào phương trình (8.7), chúng ta có:
Nghĩa là, xác suất mà một người với các đặc điểm được cho ở trên là một người hút thuốc là khoảng 38% Từ dữ liệu chúng ta biết được người này là một người hút thuộc
Bây giờ lấy một người (bất kỳ) với các thông tin về tuổi, giáo dục, thu nhập, và giá thuốc năm 1979 lần lượt như sau: 63, 10, 20.000, và 60.8 Đối với người này, xác suất hút thuốc sẽ là:
Nghĩa là, xác suất mà người này là một người hút thuốc là 32% Trong mẫu của chúng ta, một người như thế là người không hút thuốc
Table 8.1 đưa ra xác suất hút thuốc cho mỗi người cùng với dữ liệu thô
Liệu chúng ta có thể tính ảnh hưởng biên của một biến giải thích lên xác suất hút thuốc, khi giữ nguyên tất cả các biến khác hay không? Giả sử chúng ta
xác suất hút thuốc, khi giữ nguyên các biết khác không đổi Điều này rất dễ dàng trong mô hình LPM, nhưng nó không đơn giản với các mô hình logit hoặc probit Điều này là bởi vì sự thay đổi trong xác suất hút thuốc nếu tuổi thay đổi một đơn vị (ví dụ một năm) phụ thuộc không chỉ vào hệ số của biến tuổi mà còn vào mức xác suất từ đó mà sự thay đổi được tính Nhưng mức xác suất này phụ
Trang 14thuộc vào giá trị của tất cả các biến giải thích Để biết chi tiết cách tính, bạn đọc
có thể xem các tài liệu tham khảo, mặc dù Eviews và Stata có thể làm công
trị của nó là 0.0927
Vì biến phụ thuộc nhận một giá trị 1 hoặc 0, nếu xác suất dự đoán cho một quan sát lớn hơn 0.5 chúng ta phân loại quan sát đó như 1, nhưng nếu nhỏ hơn 0.5, chúng ta phân loại như 0 Sau đó chúng ta đếm số dự đoán đúng và tính count
Cũng nên nhấn mạnh rằng trong các mô hình hồi quy nhị phân thì các thước đo
về mức độ phù hợp chỉ quan trọng thứ hai Điều mà chúng ta quan tâm nhất là các dấu kỳ vọng của các hệ số hồi quy và ý nghĩa thống kê hoặc ý nghĩa thực tiễn của chúng Từ Bảng 8.3 chúng ta có thể thấy rằng ngoại trừ hệ số của biến thu nhập, tất cả các hệ số khác đều có ý nghĩa thống kê, ít nhất là ở mức ý nghĩa 10% Chúng ta cũng có thể kiểm định giả thuyết Ho rằng tất cả các hệ số đồng thời bằng 0 với thống kê về tỷ số hợp lý (LR – likelihood ratio statistic),
Dưới giả thuyết Ho rằng không có biến giải thích nào có ý nghĩa, thống kê LR
10 Xem, ví dụ như Gujarati/Porter, op cit
Trang 15theo phân phối Chi bình phương với số bậc tự do bằng với số biến giải thích: 4 trong ví dụ của chúng ta
Như Bảng 8.3 cho thấy, giá trị của thống kê LR là khoảng 47.26 và giá trị xác suất p (tức mức ý nghĩa chính xác) thực tế bằng 0, vì thế chúng ta bác bỏ giả thuyết Ho Vì thế chúng ta có thể nói rằng bốn biến được đưa vào mô hình logit
là các nhân tố quyết định quan trọng về thói quen hút thuốc
• Lưu ý kỹ thuật số 1: Bảng 8.3 đưa ra hai thống kê về log likelihood – unrestricted likelihood (= - 770.84) và restricted likelihood (= -794.47) Thống kê thứ hai có được bằng cách giả sử rằng không có biến giải thích nào trong mô hình, chỉ có hệ số cắt, trong khi đó unrestricted likelihood là giá trị có được với tất cả các biến giải thích (kể cả hệ số cắt) trong mô hình Thống kê LR (= ) khoảng 47.27 trong Bảng 8.3 được tính từ công thức được trình bày trong Phụ lục cuối chương 1 Đối với ví dụ của chúng ta, tỷ số hợp lý được tính toán (computed likelihood ratio) là 47.27 có ý nghĩa thống kê cao, vì giá trị xác suất của nó thực
(unrestricted model) bao gồm tất cả các biến giải thích là mô hình phù hợp trong ví dụ hiện tại Nói theo cách khác, mô hình bị ràng buộc là không hợp lý trong trường hợp hiện tại
• Lưu ý kỹ thuật số 2: Lưu ý rằng các sai số chuẩn Huber/White được báo cáo trong Bảng 8.3 không nhất thiết là cải thiện phương sai thay đổi (robust to heteroscedasticity) nhưng là cải thiện nhằm tránh sai dạng của phân phối xác suất cơ bản (robust to certain misspecification
of the underlying probability distribution) của biến phụ thuộc
12 Như đã lưu ý trong Phụ lục cuối chương 1, dưới giả thuyết Ho rằng các hệ số của tất cả các biến giải thích trong
mô hình đều bằng 0, thống kê LR theo phân phối Chi bình phương với bậc tự do bằng số biến giải thích (loại trừ
hệ số cắt), bằng 4 trong ví dụ của chúng ta