Hồi qui sừ dụng biến giả Trước đây chúng ta chỉ sừ dụng biến giải thích định lượng.. Trong bài giảng này chúng ta đề cập trong mô hình biến giải thích định tính nhằm giải quyết các tình
Trang 1Hồi qui sừ dụng biến giả
Trước đây chúng ta chỉ sừ dụng biến giải thích định lượng Trong bài giảng này chúng ta đề cập
trong mô hình biến giải thích định tính nhằm giải quyết các tình huống như: tìm hiểu sự khác biệt
về giới tính trong việc thanh tóan lương, sư khác biệc về doanh số giữa các mùa trong năm, và sự
khác biệt giữa hai giai đọan chính sách khác nhau
Công cụ xừ lý đó chính là biến giả (dummy) Chúng ta giải thích trong nhiếu trường hợp khác nhau
từ đơn giản đến phức tạp Biến giả thể hiện các biến định tính
1) Mô hình chỉ có biến giải thích là biến giả
2) Mô hình có biến giải thích định lượng và biến giả Trong mô hình này lại có nhiều trường
hợp khác nhau mà chúng ta sẽ đề cập sau
Trường hợp 1: Hồi qui với một biến giả duy nhất là biến độc lập
Nam: E(Yi |D = 1) = β1 + β2
Nữ: E(Yi |D = 0) = β1
trung bình của hai nhóm trong tổng thể
Dựa vào mô hình hồi qui đơn chúng có
Lưu ý rằng do D là biến giả và chỉ nhận giá trị 1 và 0, D2 cũng có giá trị giống D Trong
Phương trình (11.3), ∑Dt ở vế bên phải bằng số nam nhân viên (gọi là nm) và ∑YiDi ở vế
bên trái bằng tổng lương của họ Chia hai vế cho nm ta có
β^1+ β^2 = Y−
với Y−
m là lương trung bình của nam nhân viên Vì vậy, tổng các hệ số hồi qui là một ước
lượng của E(Yi|D = 1), trung bình tổng thể lương của nam nhân viên
Vì ∑Di = nm, Phương trình (11.2) và (11.3) có thể viết lại thành
∑Yi = nβ^1 + n mβ^2
Trang 2Chương Trình Giảng Dạy Kinh Tế Fulbright Các phương pháp phân tích Hồi qui sừ dụng biến giả 2
với n f là số nhân viên nữ Lưu ý là vế bên trái của phương trình đơn giản là tổng lương của
nữ nhân viên (tổng của toàn bộ lương trừ tổng lương của nam nhân viên) Vì vậy, chia hai
vế cho n f , chúng ta có β^1 = Y−
f, trung bình mẫu của lương nữ nhân viên, đây là một ước
lượng của trung bình tổng thể E(Yi|D = 0)
Sừ dụng dữ liệu và ứng dụng EViews chúng ta có:
Trong đó WAGE: tiền lương, DUMMY (= 0 nếu quan sát là nữ và = 1 nếu quan sát là nam)
Kiểm tra lại bằng cách tìm giá trị lương trung bình của nữ trong tập hợp nữ
Trang 3Ở đây do mẫu bao gồm cả nam và nữ nên ta dùng lệnh sample với if như sau
Kiểm tra lại bằng cách tìm giá trị lương trung bình của nam trong tập hợp nam
Trang 4Chương Trình Giảng Dạy Kinh Tế Fulbright Các phương pháp phân tích Hồi qui sừ dụng biến giả 4
Như vậy thì dữ liệu chúng ta kiểm tra phù hợp với giải thích về lý thuyết ở trên
Trường hợp 2: Hồi qui với một biến giả và một biến định lượng
Giả sừ rằng chúng ta phải ước lượng mối quan hệ giữa tiền lương của các giáo sư và số năm công tác của họ
i i 2 1
i β β X ε
Ở đây chúng ta hòan tòan chưa nói là giáo sư là nam hay nữ
Bây giờ giả sừ rằng chúng ta muốn tìm hiểu xem xem liệu có phải các giáo sư nữ bị phân biệt đối xừ về việc trả lương của họ không Chúng ta có hai cách để làm việc này:
Cách 1:ước hai hàm hồi qui riêng biệt, có nghĩa là một hàm hồi qui cho các giáo sư nam
có trong mẫu nM và một hàm hồi qui cho các giáo sư nữ có trong mẫu nF)
Có hai khó khăn trong cách giải quyết này Một là, mỗi phép hồi qui là kém hiệu quả hơn
so với phép hồi qui sừ dụng toàn bộ dữ liệu Hai là , tương đối không thuận tiện khi kiểm định liệu rằng hai phép hồi qui này là khác nhau
Trang 5Cách 2: ước lượng chung cho cả giáo sư nam và nữ bằng cách xác định một biến mới ghi nhận sự có mặt hay vắng mặt của thuộc tính "nữ "
Di = 0 nếu quan sát i thuộc về một giáo sư nam
Di = 1 nếu quan sát i thuộc về một giáo sư nữ
Như vậy phương trình 11.1 trở thành mô hình sau:
i i i 2 1
i β β X δD ε
Hãy ghi nhận rằng bậc tự do của mô hình này là nM + nF - 3 Sự có mặt của biến giả này làm có thể thể hiện cả hai mô hình hồi qui riêng biệt nói trên (ở cách 1) trong một mô hình (theo cách 2) Xét các giá trị kỳ vọng có điều kiện sau:
[Y | D 0] β β X
[Y | D 1] (β δ) β X
Chúng ta thấy rằng nếu δ là dương thì các giáo sư nữ có một hàm hồi qui tổng thể có tung độ gốc cao hơn sovới các giáo sư nam
Hệ số δ là chênh lệch tung độ gốc và nó cho thấy chênh lệch của các tung độ gốc đối với
hai mẫu phụ Dễ dàng kiểm định xem liệu chênh lệch này có ý nghĩa thống kê hay không: đơn giản là tính giá trị thống kê tc cho δˆ rồi so với giá trị tới hạn tra bảng t* như chúng ta
đã làm như thường lệ khi kiểm định ý nghĩa thống kê của các hệ số hồi qui
Chúng ta có thể sừ dụng dữ liệu và minh họa khi hồi qui lương theo kinh nghiệm EXPER
và GENDER như sau
Trang 6Chương Trình Giảng Dạy Kinh Tế Fulbright Các phương pháp phân tích Hồi qui sừ dụng biến giả 6
Giải thích sự khác biệt này bằng đồ thị
Lưu ý: tuy nhiên sự khác biệt này mới chỉ được kiểm sóat bởi biến giải thích duy nhất là EXPER Do đó các hệ số ước lượng sẽ có sự hiện tượng chệch do bỏ sót biến Chúng ta có thể minh họa điều này bằng cách hồi qui WAGE theo EXPER cho GENDER=1
Trang 7Chúng ta thấy kết quả bảng trên khác biệt rất nhiều so với kết quả đầu tiên về hệ số trục tung cũng như hệ số độ dốc Tóm lại chúng ta có các trường hợp sau đây:
a) Thay đổi hệ số trục tung (có sự phân biệt giữa hai tính chất của biến định tính nhưng không liên quan đến biến định lượng)
b) Thay đổi hệ số độ dốc (có sự phân biệt giữa hai tính chất trong biến định lượng) c) Bao gồm cả hai trường hợp trên
Ghi chú: chúng ta có thể mô tả đồ thị giải thích các trường hợp này một cách dễ dàng Điều này cho chúng ta một suy nghĩ rằng biến định tính có thể làm thay đổi cả hệ số trục tung lẫn hệ số độ dốc
Bổ xung trường hợp 2: sừ dụng biến tương tác
Chúng ta có thể đưa khả năng này vào bằng cách xác định một biến tương tác như sau :
Trang 8Chương Trình Giảng Dạy Kinh Tế Fulbright Các phương pháp phân tích Hồi qui sừ dụng biến giả 8
[Y | D 0] β β X
[Y | D 1] (β δ ) ( β δ )X
Hệ số δ2 được gọi là chênh lệch độ dốc vì nó là chênh lệch giữa các độ dốc của hai mô
hồi qui đối với hai mẫu phụ của chúng ta Dễ dàng kiểm định rằng liệu chênh lệch này có
ý nghĩa thống kê hay không Chúng ta chỉ cần đánh giá mức độ ý nghĩa của trị thống kê t tính cho ước lượng của δ2
Các biến giả với trường hợp nhiều thuộc tính
Giả sừ rằng chúng ta quyết định mở rộng nghiên cứu của mình và ước lượng xem có sự khác biệt bao nhiêu trong tiền lương khi có sự khác nhau về trình độ học vấn và mẫu của chúng ta có nhiều thuộc tính học vấn khác nhau như đại học, thạc sĩ và tiến sĩ
Chúng ta có thể mã hoá các lạoi thuộc tính học vấn này như thế nào khi sừ dụng biến giả? Cách 1: Có gợi ý là nên làm như sau:
Khó khăn cho dạng mô hình này là chênh lệch giữa bằng đại học và bằng tiến sĩ lớn đúng gấp đôi chênh lệch giữa bằng đại học và bằng thạc sĩ; còn chênh lệch giữa bằng thạc sĩ và bằng tiến sĩ đúng bằng chênh lệch giữa bằng đại học và bằng thạc sĩ Để thấy được điều này, chúng ta cần tìm các kỳ vọng có điều kiện như chúng ta đã làm trước đây Giới hạn này có thể không phù hợp với dữ liệu của chúng ta và nó không cần thiết
Cách 2: hãy chỉ ra một cặp biến giả Chúng ta thấy rằng chúng có ba cơ cấu xác định một cách duy nhất ba thuộc tính học vấn này
0 0 Đại học
1 0 Thạc sĩ
0 1 Tiến sĩ
Với một biến có ba tính chất, đôi khi chúng ta thừ sừ dụng ba biến giả sau:
1 0 0 Đại học
Trang 90 0 1 Tiến sĩ
Khó khăn với chiến lược này là nó tạo ra tính đa cộng tuyến hoàn hảo giữa ba biến giả và biến X1 = 1 đại diện cho hằng số :
D1i + D2i + D3i - X1i = 0 đối với mọi i
Điều này được gọi là "bẫy biến giả" và nó cung cấp một ví dụ cho nội dung được nêu trước đây rằng sự đa cộng tuyến hoàn hảo thường được tạo ra một cách ngẫu nhiên bởi nhà kinh
tế lượng
Làm thế nào tạo ra biến giả d1 trong dữ liệu
Trang 10Chương Trình Giảng Dạy Kinh Tế Fulbright Các phương pháp phân tích Hồi qui sừ dụng biến giả 10
Trang 12Chương Trình Giảng Dạy Kinh Tế Fulbright Các phương pháp phân tích Hồi qui sừ dụng biến giả 12
Trang 14Chương Trình Giảng Dạy Kinh Tế Fulbright Các phương pháp phân tích Hồi qui sừ dụng biến giả 14