1. Trang chủ
  2. » Giáo Dục - Đào Tạo

1Chương 8các mô hình logit và probitdomadar

29 126 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 29
Dung lượng 3,57 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Thứ nhất, mô hình LPM giả định rằng xác suất hút thuốc có mối quan hệ tuyến tính với giá trị của biến giải thích, không cần biết giá trị đó lớn hoặc nhỏ bao không có gì đảm bảo rằng các

Trang 1

Chương 8 Các mô hình logit và probit

Domadar N Gujarati (Econometrics by example, 2011)

Người dịch và diễn giải: Phùng Thanh Bình, MB (25/12/2017)

Biến phụ thuộc trong hầu hết các mô hình hồi quy đều bằng số, thường được

đo theo một thang đo tỷ lệ (ratio scale) Nhưng trong nhiều ứng dụng thì các biến phụ thuộc là định danh (nominal) theo nghĩa rằng chúng biểu hiện các phân loại (categories), như nam hoặc nữ, có gia đình hoặc chưa có gia đình,

có việc làm hoặc thất nghiệp, trong lực lượng lao động hoặc không thuộc lực lượng lao động

Giả sử chúng ta có dữ liệu về những người trưởng thành, một số trong họ hút thuốc và một số khác thì không Hơn nữa, giả sử rằng chúng ta muốn biết các nhân tố nào quyết định việc một người hút thuốc hay không Vì thế biến tình trạng hút thuốc là một biến định danh; hoặc là bạn hút thuốc hoặc là bạn không hút thuốc Chúng ta mô hình hóa các biến định danh như thế như thế nào? Chúng ta có thể sử dụng các kỹ thuật hồi quy cổ điển hay chúng ta cần các kỹ thuật chuyên biệt?

Các mô hình hồi quy liên quan đến các biến có thang đo định danh là một ví dụ của một lớp các mô hình được gọi chung là các mô hình hồi quy phản ứng định tính (qualitative response regression models) Có rất nhiều loại mô hình như thế, nhưng trong chương này chúng ta sẽ xem xét một loại đơn giản nhất trong các mô hình đó, có tên gọi là các mô hình hồi quy có biến phụ thuộc là biến giả

Trang 2

hoặc biến nhị phân (binary or dichotomous) Trong các chương tiếp theo, chúng

ta sẽ xem xét các loại khác trong các mô hình hồi quy phản ứng định tính Mục tiêu của chương này là nhằm cho thấy rằng mặc dù các mô hình hồi quy biến nhị phân có thể được ước lượng theo phương pháp bình phương bé nhất, nhưng các mô hình như thế thường được ước lượng theo các phương pháp đặc biệt, chẳng hạn như logit và probit Trước hết chúng ta sẽ cho thấy tại sao phương pháp bình phương bé nhất không thích hợp và sau đó xem xét các mô hình logit và probit Chúng ta bắt đầu bằng một ví dụ

8.1 Một ví dụ minh họa: hút hay là không hút

này được dung cấp trong tập tin Table 8.1, có thể được tìm thấy trên trang web đồng hành cùng cuốn sách

Các biến được sử dụng trong phân tích như sau đây:

Smoker = 1 cho những người hút thuốc và 0 cho những người không hút thuốc

Education = số năm đi học

Income = thu nhập gia đình

Pcigs = giá thuốc hút ở từng bang riêng lẻ vào năm 1979

Instrumental variable estimation of count data models: an application to models of cigarette smoking behavior,

The Review of Economics and Statistics, 1997

Trang 3

8.2 Mô hình xác suất tuyến tính (LPM)

Vì biến phụ thuộc, người hút thuốc, là một biến định danh, nên nó nhận một giá trị bằng 1 (cho người hút thuốc) và bằng 0 (cho người không hút thuốc) Giả sử chúng ta như thường lệ áp dụng phương pháp bình phương bé nhất thông thường (OLS) để xác định hành vi hút thuốc trong mối quan hệ với các biến về tuổi, giáo dục, thu nhập gia đình, và giá thuốc Nghĩa là, chúng ta sử dụng mô hình sau đây:

Để đơn giản, chúng ta viết lại như sau:

Mô hình (8.2) được gọi là mô hình xác suất tuyến tính (LPM – linear probability model) bởi vì kỳ vọng có điều kiện của biến phụ thuộc (tình trạng hút thuốc), khi

có điều kiện (conditional probability) mà biến cố (tức có hút thuốc) sẽ xảy ra2

Sử dụng Eviews, chúng ta có được kết quả trong Bảng 8.2 Chúng ta hãy phân tích các kết quả trong bảng này

Lưu ý rằng tất cả các biến, trừ thu nhập, đều có ý nghĩa thống kê ít nhất ở mức

ý nghĩa 10%

Tuổi, giáo dục, và giá thuốc có tác động âm lên hút thuốc, điều này có thể không phải là một kết quả ngạc nhiên Tất cả các biến giải thích đồng thời có ý nghĩa thống kê, vì giá trị ước lượng của thống kê F  12.00 có một giá trị xác suất p

2 Nếu P i = Pr(Y i = 1) và (1 - P i ) = Pr(Y i = 0), thì giá trị kỳ vọng của Y i = E(Y i ) = 1.P i + 0.(1 - P i ) = P i

Trang 4

hầu như bằng 0 Nhớ lại rằng giá trị F dùng để kiểm định giả thuyết rằng tất cả các hệ số độ dốc đồng thời bằng 0

Bảng 8.2: Mô hình LPM về hút hay là không hút thuốc

Vì chúng ta ước lượng một mô hình xác suất tuyến tính, nên việc giải thích các

hệ số hồi quy là như sau Nếu chúng ta giữ nguyên tất cả các biến khác, xác suất hút thuốc giảm với tỷ lệ  0.005 khi tăng thêm một tuổi, có thể điều này là

do tác động xấu của hút thuốc lên sức khỏe Tương tự, khi các yếu tố khác được giữ nguyên, tăng số năm đi học thêm một năm sẽ giảm xác suất hút thuốc khoảng 0.02 Tương tự, nếu giá thuốc tăng thêm một đôla, thì xác suất hút thuốc

như rất thấp, nhưng chúng ta đừng đặt quan trọng quá nhiều vào thống kê này bởi vì biến phụ thuộc là biến định danh, chỉ nhận giá trị 1 và 0

tương tác (interaction terms), như tuổi nhân với giáo dục, hoặc giáo dục nhân

Trang 5

với thu nhập, hoặc đưa thêm một biến bình phương của giáo dục hoặc bình phương của tuổi vào mô hình để xem liệu có tác động phi tuyến của những biến này lên hút thuốc hay không Nhưng không có cơ sở nào để làm điều này, bởi

vì LPM bản thân nó có nhiều hạn chế

Thứ nhất, mô hình LPM giả định rằng xác suất hút thuốc có mối quan hệ tuyến tính với giá trị của biến giải thích, không cần biết giá trị đó lớn hoặc nhỏ bao

không có gì đảm bảo rằng các giá trị xác suất ước lượng từ mô hình LPM sẽ nằm trong các giới hạn này Điều này là bởi vì OLS không tính đến sự ràng buộc

định thông thường rằng hạng nhiễu theo phân phối chuẩn không thể được thỏa

mô hình LPM có phương sai thay đổi, điều này làm cho các kiểm định ý nghĩa truyền thống không thể tin cậy được

Vì tất cả các lý do này, mà mô hình LPM không phải là sự lựa chọn ưa thích để

mô hình hóa các biến nhị phân Các mô hình thay thế được thảo luận trong lý thuyết là mô hình logit và mô hình probit

8.3 Mô hình logit

Trong ví dụ về người hút thuốc, mục tiêu chính của chúng ta là ước lượng xác suất hút thuốc, khi cho trước các giá trị của các biến giải thích Khi xây dựng

trị của (các) biến giải thích thay đổi, thì xác suất ước lượng luôn nằm trong

Trang 6

Trước hết chúng ta xem xét mô hình logit bởi vì nó tương đối đơn giản về mặt toán học

Giả sử trong ví dụ của chúng ta, quyết định của một cá nhân có hút thuốc hay

như sau:

Trong đó, i = cá nhân thứ i, u = hạng nhiễu, và BX như được định nghĩa trong phương trình (8.2)

Nhưng chỉ số không thể quan sát có quan hệ như thế nào với quyết định thực

sự là hút hay không hút? Thật hợp lý để giả định rằng:

ta không có gợi ý rằng hút thuốc là tốt hay xấu cho sức khỏe, mặc dù có nhiều nghiên cứu y khoa khuyến cáo rằng hút thuốc có thể xấu cho sức khỏe

Để làm cho lựa chọn này có thể thực hiện được, chúng ta có thể nghĩ theo xác suất của việc thực hiện một lựa chọn, ví dụ lựa chọn hút thuốc (tức Y = 1):

Trang 7

Bây giờ xác suất này phụ thuộc vào phân phối xác suất của Yi, đến lượt nó lại

này là đối xứng quanh giá trị trung bình (bằng 0) của nó, thì phương trình (8.4)

có thể được viết lại là:

mà một biến ngẫu nhiên nhận một giá trị nhỏ hơn một giá trị được xác định nào

đó được cho bởi hàm phân phối tích lũy (CDF – cumulative distribution function)

logistic (logistic probability distribution), đối với ví dụ của chúng ta nó có thể được viết lại như sau:

5 Lưu ý rằng B là cố định và phi ngẫu nhiên và các giá trị X được cho trước Vì thế, biến thiên trong Y i xuất phát

từ biến thiên trong u i

F(X) = Pr(X  x), trong đó x là một giá trị cụ thể của X Cũng nhắc lại rằng nếu bạn vẽ đồ thị CDF, nó trông giống như một hình chữ S kéo dài (elongated S)

Trang 8

Xác suất của Y = 0, nghĩa là, một người không phải là người hút thuốc, được cho bởi:

Biến đổi phương trình (8.9)?

Chúng ta ước lượng mô hình (8.7) như thế nào, vì nó là phi tuyến không chỉ

chuyển hóa đơn giản để làm cho mô hình tuyến tính trong Xs và các hệ số Lấy

tỷ số của các phương trình (8.7) và (8.9), nghĩa là xác suất mà một người là người hút thuốc đối với xác suất mà người đó không phải là người hút thuốc, chúng ta có:

thuốc sẽ tăng tiêu dùng của họ cho thuốc lá với một mức giảm dần bởi vì quay luật hiệu suất giảm dần (law of diminishing returns) Điều này đúng với hầu hết các hàng hóa thông thường

Trang 9

số của xác suất mà một người là người hút thuốc so với xác suất mà người đó không phải là người hút thuốc

Lấy log (tự nhiên) của phương trình (8.10), chúng ta có được một kết quả rất thú vị, đó là:

Phương trình (8.11) phát biểu rằng log của tỷ số odds là một hàm tuyến tính

vì thế có tên là mô hình logit (logit model) cho các mô hình giống như (8.11) Điều thú vị mà ta quan sát thấy rằng mô hình xác suất tuyến tính được thảo

Trang 10

Một số tính chất của mô hình logit như sau:

mặc dù các xác suất nằm giữa 0 và 1, nhưng logit là không có giới hạn

thích tăng, tỷ số odds của hút thuốc tăng, trong khi đó nếu nó âm, thì tỷ

số odds của hút thuốc giảm

4 Sự giải thích mô hình logit ở (8.11) như sau: mỗi hệ số dốc cho biết log của odds ủng hộ việc hút thuốc thay đổi khi giá trị của biến X thay đổi một đơn vị

5 Một khi các hệ số của mô hình logit được ước lượng, chúng ta có thể dễ dàng tính các xác suất của hút thuốc, chứ không chỉ có tỷ số odds của hút thuốc, từ (8.7)

6 Trong mô hình LPM, hệ số dốc đo lường ảnh hưởng biên (marginal effect) của một thay đổi đơn vị trong biến giải thích lên xác suất hút thuốc, khi giữ nguyên các biến khác Điều này không đúng với mô hình logit, vì ảnh hưởng biên của một sự thay đổi đơn vị trong biến giải thích không chỉ phụ thuộc vào hệ số của biến đó, mà còn phụ thuộc vào mức xác suất từ đó

mà sự thay đổi được đo lường Nhưng mức xác suất phụ thuộc vào các

mềm thống kê như Eviews và Stata có thể tính toán các ảnh hưởng biên với các hướng dẫn đơn giản

Bây giờ câu hỏi đặt ra là: chúng ta ước lượng các tham số của mô hình logit như thế nào?

chain rule): P i /X i = P i /Z i Z i /X i

Trang 11

Ước lượng mô hình logit

Việc ước lượng mô hình logit phụ thuộc vào loại dữ liệu có sẵn cho phân tích

Có hai loại dữ liệu có sẵn: dữ liệu ở cấp độ cá nhân, hoặc vi mô, nhưng trong trường hợp ví dụ về người hút thuốc, và dữ liệu ở cấp độ nhóm Trước hết chúng

ta sẽ xem xét trường hợp dữ liệu ở cấp độ cá nhân

Dữ liệu cấp độ cá nhân

Đối với ví dụ về người hút thuốc của chúng ta, chúng ta có dữ liệu về 1.196 cá nhân Vì thế, mặc dù mô hình logit là tuyến tính, nhưng nó không thể được ước

hút thuốc Đây là các biểu thức không xác định Vì thế, để ước lượng mô hình logit chúng ta phải dựa vào các phương pháp ước lượng khác Phương pháp phổ biến nhất với các tính chất thống kê hấp dẫn là phương pháp hợp lý tối đa

hút thuốc, kết quả này có được từ Eviews (Bảng 8.3)

Chúng ta hãy phân tích các kết quả này Các biến tuổi và giáo dục có ý nghĩa thống kê cao và có dấu đúng như kỳ vọng Khi tuổi tăng, thì giá trị của logit giảm, có lẽ do các quan tâm về sức khỏe – nghĩa là, khi người ta lớn tuổi, thì họ

ít có khả năng hút thuốc Tương tự, người có trình độ giáo dục cao hơn thì ít có

9 Một thảo luận dễ đọc về ML, xem Gujarati/Porter, op cit

Trang 12

khả năng hút thuốc, có lẽ do hiểu biết về ảnh hưởng xấu của hút thuốc Giá thuốc lá có dấu âm như kỳ vọng và có ý nghĩa ở mức 7% Khi các yếu tố khác được giữ nguyên, thì giá thuốc lá càng cao, thì xác suất hút thuốc càng thấp Thu nhập không có tác động có ý nghĩa thống kê lên việc hút thuốc, có lẽ bởi vì chi tiêu cho thuốc lá có thể chiếm một tỷ phần nhỏ trong thu nhập của gia đình Bảng 8.3: Mô hình logit về quyết định hút hay là không hút

Giải thích các hệ số khác nhau như sau: khi giữ các biến khác không đổi, nếu,

ví dụ giáo dục tăng thêm một năm, thì trung bình giá trị logit giảm khoảng 0.09, nghĩa là log của tỷ số odds ủng hộ việc hút thuốc giảm khoảng 0.09 Các hệ số khác cũng được giải thích một cách tương tự

Nhưng ngôn ngữ logit không phải là ngôn ngữ thường ngày Điều mà chúng ta muốn biết là xác suất của việc hút thuốc, khi cho trước các giá trị của các biến giải thích Nhưng điều này có thể được tính từ phương trình (8.7) Để minh họa,

Trang 13

chúng ta chọn người thứ 2 từ Table 8.1 Dữ liệu của người này như sau: tuổi =

28, giáo dục = 15, thu nhập = 12.500 và giá thuốc năm 1979 = 60 Thế các giá trị này vào phương trình (8.7), chúng ta có:

Nghĩa là, xác suất mà một người với các đặc điểm được cho ở trên là một người hút thuốc là khoảng 38% Từ dữ liệu chúng ta biết được người này là một người hút thuộc

Bây giờ lấy một người (bất kỳ) với các thông tin về tuổi, giáo dục, thu nhập, và giá thuốc năm 1979 lần lượt như sau: 63, 10, 20.000, và 60.8 Đối với người này, xác suất hút thuốc sẽ là:

Nghĩa là, xác suất mà người này là một người hút thuốc là 32% Trong mẫu của chúng ta, một người như thế là người không hút thuốc

Table 8.1 đưa ra xác suất hút thuốc cho mỗi người cùng với dữ liệu thô

Liệu chúng ta có thể tính ảnh hưởng biên của một biến giải thích lên xác suất hút thuốc, khi giữ nguyên tất cả các biến khác hay không? Giả sử chúng ta

xác suất hút thuốc, khi giữ nguyên các biết khác không đổi Điều này rất dễ dàng trong mô hình LPM, nhưng nó không đơn giản với các mô hình logit hoặc probit Điều này là bởi vì sự thay đổi trong xác suất hút thuốc nếu tuổi thay đổi một đơn vị (ví dụ một năm) phụ thuộc không chỉ vào hệ số của biến tuổi mà còn vào mức xác suất từ đó mà sự thay đổi được tính Nhưng mức xác suất này phụ

Trang 14

thuộc vào giá trị của tất cả các biến giải thích Để biết chi tiết cách tính, bạn đọc

có thể xem các tài liệu tham khảo, mặc dù Eviews và Stata có thể làm công

trị của nó là 0.0927

Vì biến phụ thuộc nhận một giá trị 1 hoặc 0, nếu xác suất dự đoán cho một quan sát lớn hơn 0.5 chúng ta phân loại quan sát đó như 1, nhưng nếu nhỏ hơn 0.5, chúng ta phân loại như 0 Sau đó chúng ta đếm số dự đoán đúng và tính count

Cũng nên nhấn mạnh rằng trong các mô hình hồi quy nhị phân thì các thước đo

về mức độ phù hợp chỉ quan trọng thứ hai Điều mà chúng ta quan tâm nhất là các dấu kỳ vọng của các hệ số hồi quy và ý nghĩa thống kê hoặc ý nghĩa thực tiễn của chúng Từ Bảng 8.3 chúng ta có thể thấy rằng ngoại trừ hệ số của biến thu nhập, tất cả các hệ số khác đều có ý nghĩa thống kê, ít nhất là ở mức ý nghĩa 10% Chúng ta cũng có thể kiểm định giả thuyết Ho rằng tất cả các hệ số đồng thời bằng 0 với thống kê về tỷ số hợp lý (LR – likelihood ratio statistic),

Dưới giả thuyết Ho rằng không có biến giải thích nào có ý nghĩa, thống kê LR

10 Xem, ví dụ như Gujarati/Porter, op cit

Trang 15

theo phân phối Chi bình phương với số bậc tự do bằng với số biến giải thích: 4 trong ví dụ của chúng ta

Như Bảng 8.3 cho thấy, giá trị của thống kê LR là khoảng 47.26 và giá trị xác suất p (tức mức ý nghĩa chính xác) thực tế bằng 0, vì thế chúng ta bác bỏ giả thuyết Ho Vì thế chúng ta có thể nói rằng bốn biến được đưa vào mô hình logit

là các nhân tố quyết định quan trọng về thói quen hút thuốc

• Lưu ý kỹ thuật số 1: Bảng 8.3 đưa ra hai thống kê về log likelihood – unrestricted likelihood (= - 770.84) và restricted likelihood (= -794.47) Thống kê thứ hai có được bằng cách giả sử rằng không có biến giải thích nào trong mô hình, chỉ có hệ số cắt, trong khi đó unrestricted likelihood là giá trị có được với tất cả các biến giải thích (kể cả hệ số cắt) trong mô hình Thống kê LR (= ) khoảng 47.27 trong Bảng 8.3 được tính từ công thức được trình bày trong Phụ lục cuối chương 1 Đối với ví dụ của chúng ta, tỷ số hợp lý được tính toán (computed likelihood ratio) là 47.27 có ý nghĩa thống kê cao, vì giá trị xác suất của nó thực

(unrestricted model) bao gồm tất cả các biến giải thích là mô hình phù hợp trong ví dụ hiện tại Nói theo cách khác, mô hình bị ràng buộc là không hợp lý trong trường hợp hiện tại

• Lưu ý kỹ thuật số 2: Lưu ý rằng các sai số chuẩn Huber/White được báo cáo trong Bảng 8.3 không nhất thiết là cải thiện phương sai thay đổi (robust to heteroscedasticity) nhưng là cải thiện nhằm tránh sai dạng của phân phối xác suất cơ bản (robust to certain misspecification

of the underlying probability distribution) của biến phụ thuộc

12 Như đã lưu ý trong Phụ lục cuối chương 1, dưới giả thuyết Ho rằng các hệ số của tất cả các biến giải thích trong

mô hình đều bằng 0, thống kê LR theo phân phối Chi bình phương với bậc tự do bằng số biến giải thích (loại trừ

hệ số cắt), bằng 4 trong ví dụ của chúng ta

Ngày đăng: 19/06/2019, 20:49

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w