Ví dụ: giới tính, chủng tộc, công nghiệp, khu vực, đánh giá cấp độ, ... Một cách để kết hợp thông tin định tính là sử dụng biến giả Chúng có thể xuất hiện như là biến phụ thuộc hay biến độc lập Trường hợp đơn giản: Có một biến độc lập là biến giả
Trang 27.1 Biến định tính
Ví dụ: giới tính, chủng tộc, công nghiệp, khu vực, đánh giá cấp độ, Một cách để kết hợp thông tin định tính là sử dụng biến giả
Chúng có thể xuất hiện như là biến phụ thuộc hay biến độc lập
7.2 Trường hợp đơn giản: Có một biến độc lập là biến giả
Biến giả female =1 nếu là nữ
= 0 nếu là nam
δ 0 là sự khác biệt về mức lương trung bình giữa nam và nữ
có cùng một trình độ giáo dục (đồ thị minh họa ở slide kế)
Phân tích hồi quy bội: Biến
định tính
Female = 1 wage = β 0 + δ 0 + β 1 educ + u Female = 0 wage = β 0 + β 1 educ + u
Trang 3Đồ thị minh họa
Cách giải thích khác của hệ số:
nghĩa là, δ0 là sự khác biệt về mức lương trung bình giữa nam và nữ có cùng một trình độ giáo dục.
Tung độ gốc khác nhau
Phân tích hồi quy bội: Biến
định tính
Trang 4Bẫy biến giả Mô hình này không thể ước lượng được (đa cộng tuyến hoàn hảo vì male + female =1)
Khi sử dụng biến giả, một thuộc tính luôn luôn phải được loại bỏ:
Ngoài ra, có thể bỏ qua tung độ gốc:
ý nghĩa nếu hồi quy có tung
độ gốc
Phân tích hồi quy bội: Biến
định tính
Nhóm thuộc tính được loại
bỏ được chọn làm nhóm cơ sở
Trang 5Ước lượng phương trình tiền lương với sự khác biệt về hệ số chặn
Điều đó có nghĩa rằng có sự phân biệt đối xử với nữ giới?
Không hẳn vậy Bởi vì yếu tố giới tính nữ có thể tương quan với các đặc điểm lao động khác chưa được kiểm soát.
Cố định các biến giáo dục, kinh nghiệm, và thâm niên chức vụ, tiền lương nữ ít hơn nam là 1,81 USD/giờ
Phân tích hồi quy bội: Biến
định tính
Trang 6So sánh trung bình của các tổng thể con được mô tả bằng biến giả
Trong điều kiện không kiểm soát các yếu tố khác, tiền lương nữ ít hơn nam là 2,51 USD/giờ, nghĩa là, sự khác biệt giữa mức lương trung bình của nam và nữ là 2.51 $.
Phân tích hồi quy bội: Biến
định tính
Trang 7Ví dụ thêm: Ảnh hưởng của trợ cấp đào tạo lên số giờ đào tạo
Đây là một ví dụ về đánh giá chương trình
nhóm tác động (= có nhận trợ cấp) so với nhóm đối chứng (= không có nhận trợ cấp)
Liệu có phải tác động của chương trình đến biến phụ thuộc là quan hệ
nhân quả?
Giờ đào tạo mỗi nhân viên Biến giả biểu thị công ty có nhận trợ cấp đào tạo hay không
Phân tích hồi quy bội: Biến
định tính
Trang 8Sử dụng biến độc lập là biến giả trong phương trình log(y)
Biến giả biểu thị ngôi nhà kiểu colonial
Khi biến giả colonial thay đổi từ 0 đến 1 thì giá nhà tăng 5,4 % hay chênh lệch giá giữa nhà kiểu colonial
và kiểu khác là 5,4% (các yếu tố kiểm soát khác không đổi)
Phân tích hồi quy bội: Biến
định tính
log(price)
0.054
price price
Trang 97.3 Sử dụng biến giả cho trường hợp biến định tính nhiều lựa chọn
1) Xác định mỗi nhóm bằng một biến giả 2) Bỏ ra một nhóm (nhóm này sẽ trở thành nhóm cơ sở)
Biến giả female =1 nếu là nữ, female = 0 nếu không phải nữ Biến giả male =1 nếu là nm, male = 0 nếu không phải nam
δ 0 là chênh lệch mức lương trung bình của nữ giới và gt3 có cùng học vấn
Phân tích hồi quy bội: Biến
định tính
Biến giới tính có 3 lựa chọn (nam, nữ, gt3), chọn nhóm cơ sở là gt3:
wage = β 0 + δ 0 female + δ 1 male + β 1 educ + u
δ 1 là chênh lệch mức lương trung bình giữa nam giới và gt3 có cùng học vấn.
Trang 10Giữ những yếu tố khác cố định,
tiền lương của nữ đã kết hôn ít
hơn nam độc thân (= nhóm
cơ sở) là 19,8%
Sử dụng biến giả cho trường hợp biến định tính nhiều lựa chọn (tt)
Xem thêm bảng 1 (slide 26) để biết kết quả trên R cho ví dụ sau:
Phân tích hồi quy bội: Biến
định tính
Giữ những yếu tố khác cố định, tiền lương của nam đã kết hôn nhiều hơn
nam độc thân là 21,3%
Trang 11Chú ý: Số biến giả cần sử dụng:
1 Biến định tính có m thuộc tính: cần sử dụng (m-1) biến giả biểu thị cho (m-1) thuộc tính, một thuộc tính đặt ra ngoài làm cơ sở.
2 Tương tác giữa các biến giả: Giả sử biến dt1 có m 1 thuộc tính
Giả sử biến dt2 có m 2 thuộc tính
Tương tác giữa dt1 và dt2 sẽ cho ra m 1 m 2 nhóm thuộc tính, do đó cần sử dụng (m 1 m 2 – 1 ) biến giả.
Ví dụ : Có hai biến định tính: Giới tính (nam, nữ)
Màu da (trắng, đen, vàng).
Có 2*3 = 6 nhóm thuộc tính: Nam da trắng, nữ da trắng, nam da đen,
nữ da đen, nam da vàng, nữ da vàng cần 5 biến giả.
Phân tích hồi quy bội: Biến
định tính
Trang 12Sử dụng biến giả cho trường hợp biến thứ bậc
Ví dụ: Xếp hạng tín dụng của thành phố và lãi suất trái phiếu đô thị
Lãi suất trái phiếu đô thị Xếp hạng tín dụng từ 0-4 (0=tệ, 4=rất tốt)
Mô tả này có lẽ không phù hợp nếu như xếp hạng tín dụng chỉ chứa thông tin thứ bậc
Một cách tốt hơn để đưa thông tin thứ bậc này vào hồi quy là sử dụng nhiều biến giả:
Các biến giả được đặt tương ứng với các mức xếp hạng tín dụng Nghĩa là, CR1 = 1 nếu CR = 1
và CR1 = 0 cho các trường hợp khác Tất cả các tác động được so sánh với mức xếp hạng tệ
nhất (= nhóm cơ sở).
Phân tích hồi quy bội: Biến
định tính
Trang 137.4.Thành phần tương tác có biến giả
Trang 14Đồ thị minh họa
Việc sử dụng vừa biến giả vừa biến tương tác cho phép hai phương trình tiền lương hoàn toàn khác nhau giữa nam và nữ
Phân tích hồi quy bội: Biến
Trang 15Ước lượng phương trình lương với thành phần tương tác
như nhau cho nam và nữ
Liệu điều này có hàm ý rằng khi có cùng trình độ học vấn, số năm kinh nghiệm, và thâm niên chức vụ, thì không có bằng chứng thống kê cho thấy tiền lương của nữ sẽ thấp hơn nam? (do |t|= 1.35) Không: đây chỉ là tác động khi educ = 0 Để trả lời câu hỏi này , người ta phải quy tâm thành phần tương tác, ví
dụ xét educ = 12,5 (= học vấn trung bình) ( xem
Phân tích hồi quy bội: Biến
định tính
Trang 16Kiểm định sự khác nhau trong hàm hồi quy giữa các nhóm
Mô hình chưa gán ràng buộc (chứa toàn bộ các thành phần tương
tác)
Điểm trung bình đánh giá (GPA) điểm thi SAT Xếp hạng của sinh viên tại trường
Tổng số giờ học chính khóa
Phân tích hồi quy bội: Biến
định tính
Tất cả tác động của biến giả và của thành phần tương tác bằng 0, nghĩa
là, các hệ số hồi quy giống nhau cho
cả nam và nữ (hàm hồi quy riêng
cho nam và nữ giống nhau)
1 : 0
H H sai (hồi quy cho nam và nữ khác nhau)
Trang 17Mô hình đã gán ràng buộc (hàm hồi quy giống nhau cho cả 2
nhóm)
Ước lượng mô hình chưa gán ràng buộc:
Kiểm định riêng lẻ từng hệ
số của từng thành phần tương tác, giả thuyết cho rằng tác động của thành phần tương tác bằng 0 không thể bị bác bỏ vì các thống kê t nhỏ.
Phân tích hồi quy bội: Biến
định tính
Trang 18Kiểm định đồng thời với thống kê F
Cách khác để tính thống kê F trong trường hợp đã cho
Chạy hồi quy riêng biệt cho nam và nữ (tách riêng dữ liệu cho nam và nữ rồi chạy hồi qui); tính SSR cho mô hình chưa gán ràng buộc bằng cách lấy tổng SSR của hai hàm hồi quy này: SSR ur = SSR 1 + SSR 2
Dùng toàn bộ dữ liệu chạy hồi quy cho mô hình đã gán ràng buộc và tính SSR cho mô hình này: SSR r
Kiểm định theo cách làm này được gọi là kiểm định Chow Kiểm định
Chow giả định rằng phương sai của nhiễu là như nhau giữa các nhóm.
SSR SSR n k
Trang 197.5 Biến phụ thuộc nhị phân: mô hình xác suất tuyến tính
Hồi quy tuyến tính khi biến phụ thuộc nhị phân
Mô hình xác suất tuyến tính (LPM)
Nếu biến phụ thuộc chỉ có 2 giá trị 1 và 0
Trong mô hình xác suất tuyến tính, các hệ số cho biết tác động của biến độc lập lên xác suất y=1
Phân tích hồi quy bội: Biến
định tính
Trang 20Có vẻ không có ý nghĩa do |t|= 0.98
Ví dụ: Việc tham gia lực lượng lao động của phụ nữ đã kết hôn
=1 có việc làm, =0 ngược lại Thu nhập của người chồng (nghìn USD mỗi năm)
Nếu số con dưới sáu tuổi tăng thêm 1, xác suất người phụ nữ
có làm việc giảm 26,2%
Phân tích hồi quy bội: Biến
định tính
Trang 21Ví dụ: Tham gia lực lượng lao động của phụ nữ đã kết hôn (tt)
Đồ thị với nwifeinc=50, exper=5, age=30, kidslt6=1, kidsge6=0
Xác suất dự đoán âm nhưng không sao vì không có người phụ nữ nào trong mẫu có educ <5.
Học vấn cao nhất trong mẫu là educ = 17 Khi đó, xác suất có việc làm dự đoán của phụ nữ đã kết hôn
là khoảng 50%.
Phân tích hồi quy bội: Biến
định tính
Trang 22Nhược điểm của mô hình xác suất tuyến tính
Xác suất dự đoán có thể lớn hơn 1 hoặc nhỏ hơn 0 Tác động xác suất biên hằng số đôi khi không đúng về mặt logic
Mô hình xác suất tuyến tính thì luôn có phương sai thay đổi
Cần tính sai số chuẩn cải thiện cho trường hợp phương sai thay đổi này
Ưu điểm của mô hình xác suất tuyến tính
Dễ dàng ước lượng và giải thích Tác động ước lượng và dự đoán thường khá tốt trong thực tế
Phương sai của biến ngẫu nhiên Bernoulli
Phân tích hồi quy bội: Biến
định tính
Trang 23Call: lm(formula = log(wage) ~ marrmale + marrfem + singfem
+ educ + exper + I(exper^2) + tenure + I(tenure^2), data = wage1)
Residual standard error: 0.3933 on 517 degrees of freedom
Multiple R-squared: 0.4609, Adjusted R-squared: 0.4525
F-statistic: 55.25 on 8 and 517 DF, p-value: < 2.2e-16
Phân tích hồi quy bội: Biến
định tính
Bảng 1
Trang 24Chênh lệch tiền lương giữa nam và nữ là bao nhiêu tại mức học vấn 12,5 năm? Chênh lệch này có ý nghĩa thống kê ?
Phân tích hồi quy bội: Biến
định tính
Call: lm(formula = log(wage) ~ female + educ + female:I(educ - 12)
+ exper + I(exper^2) + tenure + I(tenure^2), data = wage1)
Coefficients:
Estimate Std Error t value Pr(>|t|) (Intercept) 0.3888060 0.1186871 3.276 0.00112 ** female -0.296345 0.0364959 -8.044 5.97e-15 *** educ 0.0823692 0.0084699 9.725 < 2e-16 ***
I(exper^2) -0.0005804 0.0001075 -5.398 1.03e-07 *** tenure 0.0318967 0.0068640 4.647 4.28e-06 *** I(tenure^2) -0.0005900 0.0002352 -2.509 0.01242 * female:I(educ-12.5) -0.0055645 0.0130618 -0.426 0.67028
Bảng 2 : Kết quả chạy hồi quy khi quy tâm thành phần tương tác với educ = 12,5 năm.