1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Các mô hình hồi quy biến phụ thuộc giới hạn Domadar N. Gujarati

21 212 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 21
Dung lượng 2,68 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Vấn đề ở đây là chúng ta có một mẫu kiểm duyệt censored sample, một mẫu trong đó thông tin về biến phụ thuộc sẵn có chỉ cho một số quan sát nhưng không sẵn có cho tất cả các quan sát, mặ

Trang 1

Chương 11 Các mô hình hồi quy biến phụ thuộc giới hạn

Domadar N Gujarati (Econometrics by example, 2011)

Người dịch và diễn giải: Phùng Thanh Bình, MB (29/12/2017)

Trong các mô hình logit và probit chúng ta đã thảo luận trước đây, biến phụ thuộc được giả định có các giá trị 0 và 1, 0 đại diện cho không có một thuộc tính

và 1 đại diện cho có thuộc tính đó, chẳng hạn như hút thuốc và không hút thuốc, hoặc sở hữu nhà hay không sở hữu nhà, hoặc thuộc hoặc không thuộc công đoàn Như đã lưu ý, mô hình logit sử dụng phân phối xác suất logistic và mô hình probit sử dụng phân phối chuẩn Chúng ta đã biết trong chương 8 các ước lượng và giải thích các mô hình đó như thế nào, thông qua ví dụ minh họa về hành vi hút thuốc lá

Nhưng bây giờ hãy xem xét vấn đề này: một người hút bao nhiêu gói thuốc, khi cho trước các biến về kinh tế - xã hội của người ấy? Bây giờ câu hỏi này chỉ có

ý nghĩa nếu một người hút thuốc; một người không hút thuốc có thể không quan tâm đến câu hỏi này Trong ví dụ về người hút thuốc của chúng ta được thảo luận ở chương 8, chúng ta có một mẫu gồm 1.196 người, trong đó khoảng 38% hút và 62% không hút Vì thế chúng ta có thể thu thập thông tin về số gói thuốc được hút chỉ cho 38% số người trong mẫu

Giả sử chúng ta chỉ xem xét mẫu gồm những người hút thuốc và cố gắng ước lượng một hàm cầu về số gói thuốc được hút một ngày dựa trên các thông tin kinh tế - xã hội chỉ của những người hút thuốc Hàm cầu này sẽ tin cậy như thế

Trang 2

nào nếu chúng ta bỏ qua 62% những người trong mẫu 1.196 người? Như bạn

có thể hoài nghi, hàm cầu như thế có lẽ không thể tin cậy

Vấn đề ở đây là chúng ta có một mẫu kiểm duyệt (censored sample), một mẫu trong đó thông tin về biến phụ thuộc sẵn có chỉ cho một số quan sát nhưng không sẵn có cho tất cả các quan sát, mặc dù chúng ta có thể có thông tin về các biến giải thích cho tất cả các đơn vị trong mẫu Có lẽ cần lưu ý rằng biến phụ thuộc có có thể bị kiểm duyệt phía trái (left-censored) [nghĩa là nó không thể nhận một giá trị dưới một ngưỡng nhất định, điển hình, nhưng không phải luôn luôn, là bằng 0] hoặc có thể bị kiểm duyệt phía phải (right-censored) [nghĩa

là nó không thể nhận một giá trị trên một ngưỡng nhất định, ví dụ người ta kiếm được hơn một triệu đôla thu nhập], hoặc nó có thể bị kiểm duyệt cả hai phía trái

và phía phải

Một mô hình có quan hệ rất gần nhưng hơi khác một chút so với mô hình có mẫu kiểm duyệt là mô hình mẫu bị xén (truncated sample model), trong đó thông tin về cả biến phụ thuộc và các biến giải thích đều không có sẵn cho một

số quan sát Điều này có thể do thiết kế, như trong thí nghiệm về thuế thu nhập

âm ở New Jersey ở đó dữ liệu của những người với thu nhập cao hơn 1.5 lần

Rồi chúng ta ước lượng các mô hình ấy như thế nào, các mô hình này cũng được gọi là các mô hình hồi quy biến phụ thuộc giới hạn (limited dependent variable regression models) bởi vì sự giới hạn gán lên các giá trị nhận được bởi biến phụ thuộc? Trước hết chúng ta sẽ thảo luận mô hình hồi quy kiểm duyệt (censored regression model) và sau đó thảo luận ngắn gọn mô hình hồi quy bị xén (truncated regression model) Cũng như nhiều mô hình khác nhau trong cuốn sách này, trọng tâm của chúng ta sẽ là các áp dụng thực tế

1 Xem J A Hausman and D A Wise, Social Experimentation, NBER Economic Research Conference Report,

University of Chicago Press, Chicago, 1985

Trang 3

11.1 Các mô hình hồi quy kiểm duyệt

Một mô hình được sử dụng phổ biến trong những tình huống này là mô hình Tobit (Tobit model), được phát triển đầu tiên bởi James Tobin, một nhà kinh tế

thảo luận OLS được áp dụng cho một mẫu kiểm duyệt Xem Table 11.1, có sẵn trên trang web đồng hành cùng cuốn sách

Ước lượng OLS cho dữ liệu kiểm duyệt

ông ta cung cấp dữ liệu của 753 phụ nữ có gia đình, trong đó có 428 người đi làm bên ngoài và 325 người không đi làm bên ngoài, và vì thế mà số giờ làm việc của họ bằng 0

Một số biến kinh tế - xã hội có ảnh hưởng đến quyết định đi làm được xem xét bởi Mroz là tuổi, giáo dục, kinh nghiệm, kinh nghiệm bình phương, thu nhập gia đình, số con dưới 6 tuổi, và tiền lương của chồng Table 11.1 cũng cung cấp dữ liệu về các biến khác được xem xét bởi Mroz

Áp dụng OLS về số giờ làm việc trong mối quan hệ với các biến kinh tế xã hội của tất cả các quan sát, chúng ta có các kết quả trong Bảng 11.2

Các kết quả trong bảng này được giải thích theo khuôn khổ mô hình hồi quy tuyến tính chuẩn Như bạn biết, trong mô hình hồi quy tuyến tính mỗi hệ số dốc

khi tất cả các biến khác trong mô hình được giữ nguyên không đổi Ví dụ, nếu tiền lương của chồng tăng thêm một đôla, thì số giờ làm việc trung bình của phụ

2 James Tobin (1958) Estimation of Relationship for Limited Dependent Variables, Econometrica, vol 26, pp 24

– 36

3 Xem T A Mroz, (1987) The sensitivity of an empirical model of married women’s hours of work to economic

and statistical assumptions, Econometrica, vol 55, pp 765 – 99 Nhớ lại rằng chúng ta sử dụng các dữ liệu này

trong chương 4 khi thảo luận về đa cộng tuyến

Trang 4

nữ có gia đình giảm khoảng 71 giờ, khi tất cả các biến khác được giữ nguyên không đổi Ngoại trừ hệ số của biến giáo dục, tất cả các hệ số khác dường như

có ý nghĩa thống kê cao Nhưng hãy cẩn thận với các kết quả này, vì trong mẫu

có 325 người có giờ làm việc bằng 0

Bảng 11.2: Ước lượng OLS hàm số giờ làm việc

Giả sử, thay vì sử dụng tất cả các quan sát trong mẫu, chúng ta chỉ sử dụng dữ liệu của 428 phụ nữ đi làm Kết quả OLS dựa vào mẫu (kiểm soát) này được cho trong Bảng 11.3

Trang 5

Nếu bạn so sánh các kết quả trong Bảng 11.2 và 11.3, thì bạn sẽ thấy một số

nghĩa cao, mặc dù nó lại có dấu âm Nhưng chúng ta cũng nên cẩn thận về các kết quả này

Bảng 11.3: Ước lượng OLS hàm số giờ làm việc chỉ những phụ nữ đi làm

Điều này là bởi vì các giá trị ước lượng OLS của các mô hình hồi quy kiểm duyệt,

dù chúng ta có bao gồm toàn bộ mẫu (Hình 11.1) hay một tập con của mẫu (Hình 11.2), bị chệch và cũng không nhất quán – nghĩa là, cho dù cỡ mẫu lớn bao nhiêu, thì các tham số ước lượng sẽ không hội tụ về các giá trị trung bình

4 Trong mô hình hồi quy truyền thống, giá trị trung bình của hạng nhiễu u i được giả định bằng 0, nhưng không

có gì đảm bảo rằng điều này sẽ đúng nếu chúng ta chỉ sử dụng một tập con của các giá trị mẫu, như trong ví dụ này

Trang 6

của chúng5 Lý do của điều này là sự thật rằng trong các mô hình hồi quy kiểm duyệt cũng như các mô hình hồi quy bị xén, trung bình có điều kiện của hạng

Như chúng ta biết, nếu hạng nhiễu và các biến giải thích có tương quan, thì các

Hình 11.1: Số giờ làm việc và thu nhập, mẫu đầy đủ

[

Để hiểu sơ qua về lý do tại sao các giá trị ước lượng OLS có thể bị chệch và cũng không nhất quán, chúng ta vẽ đồ thị số giờ làm việc theo thu nhập gia đình

5 Một chứng minh chặt chẽ, xem Jeffrey M Wooldridge, Introductory Econometrics: A Modern Approach,

South-Western, USA, 4 th edn, 2006, Ch.17 Cũng nên xem Christaan Heij, Paul de Boer, Philip Hans Franses, Teun Kloek,

and Herman K van Dijk, Econometric Methods with Applications in Business and Economics, Oxford University

Press, Oxford, UK, 2004, Ch 6

Trang 7

trong Hình 11.1 và số giờ làm việc và thu nhập gia đình chỉ cho các phụ nữ đi làm trong Hình 11.2

Hình 11.2: Số giờ làm việc và thu nhập cho các phụ nữ đi làm

Trong Hình 11.1, có nhiều quan sát (thực sự là 325 quan sát) nằm trên trục hoành bởi vì các quan sát này có số giờ làm việc bằng 0

Trong Hình 11.2, không có quan sát nào nằm trên trục hoành, vì các quan sát này cho 428 phụ nữ đang đi làm Các hệ số dốc của các đường hồi quy trong hai đồ thị dĩ nhiên sẽ khác nhau

Một phương pháp được sử dụng phổ biến để giải quyết các mẫu kiểm duyệt là

mô hình Tobit, bây giờ chúng ta thảo luận mô hình này

Trang 8

11.2 Ước lượng ML của mô hình hồi quy kiểm duyệt: mô hình Tobit

Một trong số những mô hình hồi quy mẫu kiểm duyệt được sử dụng phổ biến là

mô hình Tobit Có nhiều biến thể của mô hình Tobit, nhưng ở đây chúng ta xem xét mô hình đơn giản nhất, được gọi là mô hình Tobit chuẩn (standard Tobit

Để biết các quan sát kiểm duyệt được xử lý như thế nào, chúng ta thực hiện như sau: Cho

lượt là tuổi tính theo năm, giáo dục tính theo số năm đi học, kinh nghiệm làm việc tính theo năm, số con dưới 6 tuổi, thu nhập gia đình tính theo ngàn đôla,

và tiền lương theo giờ của chồng

chính Dĩ nhiên, chúng ta thực sự không quan sát được biến này cho tất cả các quan sát Chúng ta chỉ quan sát nó đối với những quan sát có số giờ làm việc

6 Một thảo luận chi tiết, nhưng hơi nâng cao có thể tìm thấy trong A Colin Cameron and Pravin K Trivedi,

Microeconometrics: Methods and Applications, Cambridge University Press, New York, 2005, Chapter 16

7 Bạn có thể sử dụng phân phối xác suất giá trị cực đại hoặc logistic thay vì phân phối chuẩn

Trang 9

dương bởi vì sự kiểm duyệt Nhớ lại rằng chúng ta đã thảo luận khái niệm các

Lưu ý rằng chúng ta đang giả định rằng hạng nhiễu theo phân phối chuẩn với trung bình bằng 0 và phương sai cố định (phương sai không đổi) Chúng ta sẽ phải nói nhiều hơn về giả định này sau

Trước khi đi tiếp, điều hữu ích cần lưu ý sự khác biệt giữa mô hình probit và mô

miễn là biến tiềm ẩn lớn hơn 0 Đó là lý do tại sao mô hình Tobit cũng được gọi

là probit của Tobin

Để ước lượng một mô hình mà ở đó một số quan sát về biến phụ thuộc bị kiểm duyệt (bởi vì chúng không được quan sát), mô hình Tobit sử dụng phương pháp

Sử dụng Eviews 6, chúng ta có được các kết quả trong Bảng 11.4 cho ví dụ của chúng ta về số giờ làm việc của phụ nữ có gia đình

Giải thích các giá trị ước lượng của mô hình Tobit

Chúng ta giải thích các kết quả này như thế nào? Nếu bạn chỉ xem xét các dấu của các biến giải thích khác nhau, thì bạn sẽ thấy chúng giống trong các Bảng 11.2 và 11.3 Và về mặc định tính, chúng có ý nghĩa Ví dụ, nếu tiền lương của chồng tăng lên, thì trung bình, một phụ nữ sẽ làm việc ít hơn trong thị trường lao động, khi tất cả các yếu tố khác được giữ nguyên không đổi Biến giáo dục

Trang 10

không có ý nghĩa thống kê trong Bảng 11.2, nhưng nó có ý nghĩa trong Bảng 11.3, mặc dù có dấu âm Trong Bảng 11.4, nó có ý nghĩa thống kê và có dấu dương, điều này có ý nghĩa

Các hệ số dốc của các biến giải thích khác nhau trong Bảng 11.4 cho biết tác

thực tế chúng ta quan tâm đến tác động biên của một biến giải thích lên giá trị

Bảng 11.4: Ước lượng ML của mô hình hồi quy kiểm duyệt

Trang 11

Không may, không giống các giá trị ước lượng OLS trong Bảng 11.2, chúng ta

không thể giải thích hệ số của Tobit của một biến giải thích như tác động biên của biến giải thích đó lên giá trị trung bình của biến phụ thuộc được quan sát Điều này là bởi vì trong các mô hình hồi quy kiểm duyệt loại Tobit, thì một sự thay đổi đơn vị trong giá trị của một biến giải thích có hai ảnh hưởng: (1) ảnh hưởng lên giá trị trung bình của biến phụ thuộc được quan sát, và (2) ảnh hưởng

Ví dụ, lấy tác động của biến tuổi Hệ số của biến tuổi là khoảng -54 trong Bảng 11.4 có nghĩa rằng, khi các biến khác được giữ nguyên không đổi, nếu tuổi tăng thêm một năm, thì tác động trực tiếp của nó lên số giờ làm việc một năm sẽ giảm khoảng 54 giờ một năm và xác suất mà một người phụ nữ tham gia lực lượng lao động cũng sẽ giảm Vì thế, chúng ta phải nhân -54 với xác suất mà điều này xảy ra Trừ khi chúng ta biết được xác suất này, chúng ta sẽ không thể

tính toán xác suất này phụ thuộc vào tất cả các biến giải thích trong mô hình và các hệ số của chúng

Thật thú vị, hệ số dốc cho biết tác động biên một cách trực tiếp của một biến

chúng ta thực sự không quan sát được số giờ làm việc mong muốn, vì nó là một cấu trúc trừu tượng (abstract contruct)

Trong ví dụ của chúng ta, chúng ta có 753 quan sát Đó là một công việc mất thời gian để tính toán tác động biên của mỗi biến giải thích cho tất cả 753 quan

11 Nghĩa là, [Y | X i ]/X i = Bi*Pr(0 < Y i* < ) và xác suất này phụ thuộc vào tất cả các biến giải thích trong mô hình

và các hệ số của chúng

Trang 12

sát Trong thực tế, chúng ta có thể tính toán tác động biên tại giá trị trung bình của mỗi biến giải thích

xác suất này sẽ nhỏ hơn (theo giá trị tuyệt đối) chính bản thân hệ số dốc Vì thế, tác động biên của một biến giải thích lên giá trị trung bình của biến phụ thuộc được quan sát sẽ nhỏ hơn (theo giá trị tuyệt đối) giá trị của hệ số dốc được chỉ ra trong Bảng 11.4 Dấu của tác động biên phụ thuộc vào dấu của hệ

như Stata và Eviews có thể tính toán tác động biên của mỗi biến giải thích

Ý nghĩa thống kê của các hệ số ước lượng

Bảng 11.4 trình bày các sai số chuẩn, các thống kê Z (các giá trị phân phối

quả hồi quy cho thấy tất cả các hệ số đều có ý nghĩa thống kê ở mức ý nghĩa 10% hoặc thấp hơn

mô hình hồi quy tuyến tính chuẩn ước lượng các tham số bằng cách tối thiểu hóa tổng bình phương phần dư (RSS), trong khi mô hình Tobit tối đa hóa hàm

giữa các giá trị Y thực tế và các giá trị Y được ước lượng từ mô hình Tobit Kiểm định các biến bị bỏ sót hoặc các biến thừa có thể được thực hiện trong khuôn khổ của các kiểm định với mẫu lớn thông thường, chẳng hạn như tỷ số hợp lý (LR), Wald, hoặc nhân tử Lagrange (L) Thử điều này bằng cách đưa thêm biến kinh nghiệm bình phương vào mô hình hoặc biến giáo dục của cha

và biến giáo dục của mẹ vào mô hình

12 Bởi vì cỡ mẫu lớn, nên chúng ta sử dụng phân phốn chuẩn hơn là phân phối t

Trang 13

Những cảnh báo trước

Trong mô hình Tobit, chúng ta giả định rằng hạng nhiễu theo phân phối chuẩn với trung bình bằng 0 và phương sai cố định (tức phương sai không đổi)

Sự không chuẩn của hạng nhiễu

Trong các mô hình hồi quy kiểm duyệt dưới phân phối không chuẩn của hạng nhiễu thì các ước lượng không nhất quán Một lần nữa, một vài phương pháp khắc phục được đề xuất trong lý thuyết Một cách khắc phục là thay đổi giả định

về phân phối của hạng nhiễu Ví dụ, Eviews có thể ước lượng các mô hình như thế dưới các giả định phân phối xác suất khác cho hạng nhiễu (chẳng hạn như logistic hoặc extreme value) Một thảo luận chi tiết, bạn có thể xem các sách

Phương sai thay đổi

Trong mô hình hồi quy tuyến tính thông thường, nếu hạng nhiễu có phương sai thay đổi, thì các ước lượng OLS vẫn nhất quán mặc dù không hiệu quả Tuy nhiên, trong các mô hình kiểu Tobit, thì các ước lượng không nhất quán và cũng không hiệu quả Có một vài phương pháp để xử lý vấn đề này, nhưng một thảo

kê như Stata và Eviews có thể tính toán các sai số chuẩn cải thiện (robust standard errors), như được trình bày trong Bảng 11.5

Như bạn có thể thấy, không có những khác biệt lớn trong các sai số chuẩn ước lượng trong hai bảng, nhưng điều này không phải luôn luôn đúng như vậy

13 Một thảo luận chi tiết nhưng hơi nâng cao, xem G S Maddala, Limited Dependent and Qualitative Variables

in Econometrics, Cambridge University Press, Cambridge, UK, 1983; và Wooldridge, J M., Econometric Analysis

of Cross and Panel Data, MIT Press, Cambridge, MA, 2002

14 Một thảo luận nâng cao, xem Maddala và Wooldridge, op cit

Trang 14

Bảng 11.5: Ước lượng các sai số chuẩn cải thiện của mô hình Tobit

[

11.3 Các mô hình hồi quy mẫu bị xén

Trước đây chúng ta đã thảo luận khác biệt giữa các mô hình hồi quy mẫu kiểm duyệt và mẫu bị xén Sau khi đã thảo luận mô hình hồi quy mẫu kiểm duyệt, bây giờ chúng ta tập trung vào các mô hình hồi quy mẫu bị xén

Trong các mẫu bị xén nếu chúng ta không có thông tin về biến phụ thuộc, thì chúng ta không thu thập thông tin về các biến giải thích mà các biến đó có thể

có quan hệ với biến phụ thuộc Trong ví dụ minh họa của chúng ta, chúng ta không có dữ liệu về số giờ làm việc của 325 phụ nữ Vì thế, chúng ta có thể

Ngày đăng: 12/05/2018, 11:51

TỪ KHÓA LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w