Thực tế có rất nhiều trường hợp mà biến độc lập ta gặp là biến định tính, thể hiện bởi một số trạng thái (còn gọi là tính chất hay các phạm trù) như biến mô tả về giới tính, tôn giáo, c[r]
Trang 1BÀI 5 PHÂN TÍCH HỒI QUY VỚI BIẾN ĐỊNH TÍNH
Hướng dẫn học
Các bài trước chúng ta đã nghiên cứu các biến độc lập là biến định lượng, tức là giá trị của chúng được đo bằng các con số Ví dụ như các biến: chi tiêu, thu nhập, sản lượng, vốn, lao động,
Bài này ta sẽ quan tâm đến việc đưa biến định tính vào mô hình trong vai trò biến độc lập Mục 5.1 sẽ trình bày khái niệm của biến giả, cách dùng biến giả nhằm lượng hóa biến định tính Mục 5.2 sẽ giới thiệu mô hình chỉ có biến định tính là biến độc lập và mục 5.3 là trường hợp mô hình hồi quy có biến độc lập là biến định lượng và biến định tính
Để học tốt bài này sinh viên cần thực hiện:
Học đúng lịch trình của môn học theo tuần, đọc kĩ các khái niệm
Theo dõi các ví dụ và hiểu kết quả
Đọc tài liệu: Nguyễn Quang Dong, Nguyễn Thị Minh, 2012, Giáo trình kinh tế lượng, NXB Đại học Kinh tế quốc dân
Sinh viên tự học, làm việc theo nhóm, trao đổi với giảng viên
Tham khảo các thông tin từ trang Web của môn học
Nội dung:
Khái niệm biến giả;
Mô hình có biến độc lập chỉ là biến giả;
Mô hình có biến độc lập là biến giả và biến định lượng
Mục tiêu:
Sau khi học xong bài này, sinh viên cần đảm bảo được các yêu cầu sau:
Hiểu rõ khái niệm của biến giả;
Biết cách dùng biến giả trong vai trò biến độc lập của mô hình hồi quy;
Hiểu được vai trò, ý nghĩa của hệ số đi kèm với biến giả trong mỗi mô hình hồi quy
Trang 2T ình huống dẫn nhập
Thực tế có rất nhiều trường hợp mà biến độc lập ta gặp là biến định tính, thể hiện bởi một số trạng thái (còn gọi là tính chất hay các phạm trù) như biến mô tả về giới tính, tôn giáo, chủng tộc, vùng miền, hình thức doanh nghiệp,
Tình huống 1:
Trong ví dụ ở các bài học trước, chúng ta đã hồi quy chi tiêu hộ gia đình phụ thuộc vào thu nhập
và số người của hộ Có ý kiến cho rằng hành vi chi tiêu của hộ gia đình còn phụ thuộc vào yếu tố khu vực hộ gia đình sinh sống vậy để xem xét vấn đề này ta cần trả lời các câu hỏi:
Mô hình kinh tế lượng được lựa chọn có dạng như thế nào? Mô tả bản chất biến phụ thuộc và các biến độc lập
Khi đưa biến “Khu vực” (nhận giá trị tương ứng là hộ gia đình ở thành thị hay nông thôn) vào mô hình trong vai trò biến độc lập thì ta cần làm như thế nào?
Cách đưa biến trung gian (biến giả nhằm lượng hóa biến định tính) vào mô hình như thế nào? Cách phân tích ra sao?
Tình huống 2:
Ta muốn xem xét trong doanh nghiệp thu nhập của nhân viên phụ thuộc vào yếu tố giới tính của nhân viên hay không thì có các câu hỏi sau xảy ra:
Ta phải xây dựng mô hình hồi quy với biến phụ thuộc, biến độc lập là gì?
Cấu trúc mô hình như thế nào?
Bản chất các số liệu của các biến trong mô hình đo bằng số như thế nào?
Khi đã lựa chọn mô hình tuyến tính hồi quy giữa biến phụ thuộc là biến đo mức lương khởi điểm của nhân viên mà doanh nghiệp chi trả (biến định lượng) phụ thuộc vào biến giải thích
là biến giới tính (biến định tính) với hai phạm trù nam và nữ Một số câu hỏi cần quan tâm là:
o Muốn “lượng hóa’’biến định tính giới tính với 2 trạng thái nam và nữ thì làm như thế nào?
o Khi dùng biến giả thực hiện mục đích trên thì cách đưa biến giả vào mô hình và tiến hành phân tích kết quả này ra sao?
Xây dựng mô hình hồi quy với biến phụ thuộc, biến độc lập là gì?
Cấu trúc mô hình như thế nào?
Bản chất các số liệu của các biến trong mô hình như thế nào?
Tình huống 4:
Có ý kiến cho rằng mức chi cho giáo dục của các hộ gia đình là khác nhau giữa 3 vùng miền bắc, miền trung và miền nam Vậy để nhận định về ý kiến này, chúng ta cũng cần trả lời các câu hỏi tương ứng:
Trang 3 Ở đây mô hình hồi quy kinh tế lượng được xây dựng với các biến hồi quy nào?
Những biến nào trong mô hình có giá trị bằng số, bằng chữ (tức là biến nào là biến định lượng, biến nào là biến định tính?)
Cách thức đưa biến giả và tiến hành phân tích như thế nào?
Ngoài ra, người đọc có thể tìm các tình huống tương tự trong đời sống kinh tế xã hội
Trang 45.1 Khái niệm biến giá
5.1.1 Giới thiệu về biến định tính và biến giả
Trong kinh tế xã hội có nhiều yếu tố được đặc trưng bởi các trạng thái tính chất hay phạm trù mà ta gọi là các biến định tính Chẳng hạn yếu tố giới tính gồm hai trạng thái
là nam và nữ, yếu tố quê quán đặc trưng bởi hai trạng thái thành thị và nông thôn, yếu
tố vùng miền chia ba trạng thái là miền Bắc, miền Trung và miền Nam,…
Để đưa các thuộc tính của biến định tính vào mô hình hồi quy định lượng ta cần phải
“lượng hóa” các thuộc tính bằng cách dùng biến giả (dummy variable) nhận hai giá trị
1 nếu hộ gia đình sống ở thành thị
KV =
0 nếu hộ gia đình sống ở nông thôn
Như vậy số liệu với biến giả về khu vực:
Trang 51 nếu doanh nghiệp dùng phương pháp công nghệ A
CN =
0 nếu doanh nghiệp dùng phương pháp công nghệ B
Số liệu với biến giả về phương pháp công nghệ:
Trang 6Nhận xét:
Vì ta chỉ xét biến định tính có hữu hạn các trạng thái và mỗi cá thể trong tổng thể chỉ tương ứng với một trạng thái nhất định, cá thể không chuyển từ trạng thái này sang trạng thái khác nên biến giả sử dụng có các đặc điểm sau:
o Biến giả chỉ nhận giá trị 0 và 1
o Mỗi cá thể trong tổng thể chỉ tương ứng với một giá trị của biến giả
o Biến giả chia tổng thể thành các phần riêng biệt
Việc lựa chọn gán giá trị 1 và 0 ứng với các trạng thái nào là chỉ nhằm thuận lợi cho việc giải thích ý nghĩa hệ số của các biến giả Biến giả được dùng trong mô hình ở vai trò biến độc lập nên ta thường đánh số là D2 trở đi vì hệ số đi kèm thường ký hiệu là β2
Khi biến định tính có nhiều hơn hai trạng thái thì ta vẫn có thể sử dụng biến giả có nhiều giá trị (như biến giả nhận giá trị 0,1,2,3, tương ứng cho các trạng thái) nhưng gặp khó khăn trong việc nghiên cứu so sánh tương ứng giữa các trạng thái
và một số yếu tố kỹ thuật khác nên người ta thường dùng nhiều biến giả với hai giá
trị 0 và 1 ở trên theo quy tắc: Số biến giả sử dụng bằng số trạng thái của biến định tính – 1
(Trong ví dụ 5.1, ví dụ 5.2 và ví dụ 5.3 ở trên biến định tính gồm hai trạng thái ta
sử dụng một biến giả Còn trong ví dụ 5.4 thì biến định tính vùng miền có 3 trạng thái nên ta sử dụng 2 biến giả)
Trạng thái của biến định tính mà ứng với giá trị các biến giả nhận giá trị 0 gọi là trạng thái gốc hay trạng thái cơ bản Việc lựa chọn trạng thái nào là trạng thái cơ bản thì đó cũng là tùy ý
(Trong Ví dụ 5.1, trạng thái “Nông thôn” là trạng thái cơ bản; Ví dụ 5.2, trạng thái
“Nam” là trạng thái cơ bản; Ví dụ 5.3, trạng thái “Phương pháp công nghệ B” là trạng thái cơ bản và trong ví dụ 4 thì trạng thái cơ bản là trạng thái “Miền trung”)
5.2 Mô hình có biến độc lập chỉ là biến giả
5.2.1 Giới thiệu tình huống
Chẳng hạn muốn xem xét và so sánh ảnh hưởng của việc dùng phương pháp công
nghệ A hay B đến sản lượng của một doanh nghiệp như thế nào
Ta tiến hành hồi quy mô hình với biến phụ thuộc (SL) là biến sản lượng của doanh nghiệp phụ thuộc vào biến định tính mô tả về việc doanh nghiệp dùng phương pháp
công nghệ A hay B
Thật vậy ta tạo biến giả về phương pháp công nghệ, ký hiệu “CN”:
1 nếu doanh nghiệp sử dụng phương pháp công nghệ A
Trang 7Mô hình hồi quy tổng thế SL12CNu
Khi sử dụng phương pháp công nghệ A SL12u
Khi sử dụng phương pháp công nghệ B SL1u
Hàm hồi quy tổng thể E(SL/CN)12CN
Khi sử dụng phương pháp công nghệ A E(SL/CN 1)12
Khi sử dụng phương pháp công nghệ B E(SL/CN 0)1
Nhận xét:
Sản lượng trung bình khi dùng phương pháp công nghệ A là β0+ β2;
Sản lượng trung bình khi dùng phương pháp công nghệ B là β1
β2 là mức chênh lệch về sản lượng trung bình của doanh nghiệp khi sử dụng phương pháp công nghệ A hay B
(Trạng thái cơ bản ở đây là trạng thái “sử dụng phương pháp công nghệ B”)
Trang 8o Nếu không bác bỏ H0 ta kết luận sản lượng của doanh nghiệp khi dùng phương pháp công nghệ A là không cao hơn khi dùng phương pháp công nghệ B
Muốn xét xét mức sản lượng doanh nghiệp khi sử dụng hai phương pháp công nghệ A và B chênh lệch nhau trong khoảng nào thì ta đi tìm khoảng tin cậy đối xứng của hệ số β2
Giả sử có 100 quan sát về hộ gia đình, với CT là chi tiêu hộ gia đình (triệu đồng/năm),
KV là khu vực gia đình sinh sống (với 2 trạng thái thành thị và nông thôn)
Tạo biến giả:
1 nếu hộ gia đình sống ở thành thị
KV =
0 nếu hộ gia đình sống ở nông thôn
Tiến hành hồi quy chi tiêu của hộ gia đình phụ thuộc vào khu vực gia đình đó sinh sống:
Mô hình hồi quy tổng thể CT 12KV u
Sum squared resid 281913.7 Prob(F-statistic) 0.000000
Trang 9Hàm hồi quy mẫu CTi 12KV i
Hộ gia đình ở thành thị CT 1 2194, 2407 69,54187 263, 78257
Hộ gia đình ở nông thôn CT 1194, 2407
Mức chi tiêu của hộ gia đình ở thành thị là 263,78257 triệu đồng/năm
Mức chi tiêu của hộ gia đình ở nông thôn là 194,2407 triệu đồng/năm
Mức chênh lệch về chi tiêu của hộ gia đình ở thành thị so với nông thôn là 69,54187 triệu đồng/năm
Muốn biết với mức ý nghĩa 5%, có phải mức chi tiêu của các hộ gia đình ở thành thị là cao hơn mức chi tiêu của các hộ gia đình ở nông thôn hay không, ta thực hiện bài toán kiểm định giả thuyết thống kê:
Miền bác bỏ của giả thuyết H0 là:
)(
k n
t T se
Với mức ý nghĩa 5% thì đủ cơ sở nói rằng mức chi tiêu của các hộ gia đình ở thành thị
là cao hơn ở nông thôn
Ví dụ 5.6:
Sử dụng 935 quan sát trong bộ số liệu ch4bt8.wf1 (trích từ Applied Econometrics,
Asteriou – web của Palgrave) (Data_giaotrinh_ktl_13/ch4bt8):
Wage (USD/tháng) chỉ mức lương của người lao động
Urban là biến giả nhận giá trị 1 nếu người lao động ở thành thị, bằng 0 nếu người lao động ở nông thôn
Tạo biến giả:
Trang 10Hàm hồi quy tổng thể: E(Wage/Urban) = 1 + 2Urban
Người lao động thành thị: E(Wage/Urban = 1) = 1 + 2
Người lao động nông thôn: E(Wage/Urban = 0) = 1
Dependent Variable: WAGE
Method: Least Squares
Included observations: 935
Variable Coefficient Std Error T-Statistic Prob
R-squared 0.039365 Mean dependent var 3457.945
Sum squared resid 1.47E+08 Prob(F-statistic) 0.000000
Hàm hồi quy mẫu: Wage 12Urban3330,11178,1316UrbanNgười lao động ở
thành thị: Wage 12 3330,11178,13163508,2416
Người lao động ở
nông thôn: Wage 13330,11
Muốn tiền công trung bình của người ở khu vực thành thị là 3508,2416 USD/tháng
Mức tiền công của người ở khu vực nông thôn là 3330,11 USD/tháng
Ước lượng điểm về mức chênh lệch về tiền công của người lao động giữa thành thị
và nông thôn là 178,1316 USD/tháng
Muốn biết với độ tin cậy 95% thì mức chênh lệch về lương của người ở thành thị
và nông thôn là bao nhiêu thì ta đi tìm khoảng tin cậy đối xứng của β2.
Trang 11k n
t T se
5.3 Mô hình có biến độc lập là biến giả và biến định lượng
5.3.1 Giới thiệu tình huống
Trong mục 5.2 đã nghiên cứu mô hình hồi quy chỉ có biến độc lập là biến định tính (được lượng hóa bởi biến giả nhận giá trị 0 và 1), trong mục này ta xét trường hợp trong các biến độc lập của mô hình có cả biến định lượng thông thường
Chẳng hạn muốn nghiên cứu, so sánh về mức lương của người lao động phụ thuộc vào
số năm đi học có khác nhau giữa nam và nữ hay không? Ta xây dựng mô hình hồi quy với các biến:
Wage (USD/tháng) chỉ mức lương của người lao động
Educ là số năm đi học của người lao động
Male là biến giả (lượng hóa cho biến giới tính) nhận giá trị 1 nếu quan sát là nam, 0 nếu quan sát là nữ
Mô hình hồi quy tổng thể:
Lao động nam: Wage12 3Educu
Lao động nữ: Wage 1 3Educ u
Wage Male Educ u
Trang 12o Nếu 2 < 0 thì có nghĩa khi cùng số năm đi học, tiền công của nam thấp hơn nữ
Muốn biết việc điến biến giả Male vào mô hình trên có ý nghĩa hay không (hay xem xét hệ số β2 có ý nghĩa thống kê không) thì ta tiến hành kiểm định cặp giả thuyết thống kê:
o Nếu bác bỏ H0, chấp nhận H1 thì ta kết luận biến Male có trong mô hình là cần thiết (hay hệ số β2 có ý nghĩa thống kê)
o Nếu chưa bác bỏ H0 ta kết luận thì ta kết luận biến Male có trong mô hình là không cần thiết (hay hệ số β2 không có ý nghĩa thống kê)
Muốn xem khi cùng số năm đi học thì mức lương của lao động nam sẽ cao hơn lương của lao động nữ hay không thì ta tiến hành kiểm định cặp giả thuyết thống kê:
o Nếu bác bỏ H0, chấp nhận H1 thì ta kết luận khi có cùng số năm đi học thì tiền công của nam là cao hơn tiền công của nữ
Educ
E(Wage/Educ) = 1 + 2 + 3Educ
2
1
Trang 13o Nếu nhận giả thuyết H0 ta kết luận khi có cùng số năm đi học thì tiền công của nam là không cao hơn tiền công của nữ
Muốn xét xét mức chênh lệch của mức lương giữa nam và nữ (khi có cùng số năm
đi học) biến động trong khoảng nào thì ta đi ước lượng hệ số β2 bằng khoảng tin cậy đối xứng:
CT: Chi tiêu hộ gia đình(triệu đồng/năm)
TN: Thu nhập hộ gia đình (triệu đồng/năm)
KV: Biến giả khu vực gia đình sình sống (lượng hóa cho biến định tính với 2 trạng thái thành thị và nông thôn)
1 nếu hộ gia đình sống ở thành thị
KV =
0 nếu hộ gia đình sống ở nông thôn
Mô hình hồi quy tổng thể: CT 1 2KV 3TN u
Sum squared resid 47345.25 Prob (F–statistic) 0.000000
Trang 14 Mức chi tiêu tối thiểu của hộ gia đình ở thành thị là:
59,62006 + 30,27209 = 89,89215 triệu đồng/năm
Mức chi tiêu tối thiểu của hộ gia đình ở nông thôn là 59.62006triệu đồng/năm
Mức chênh lệch về chi tiêu của hộ gia đình ở thành thị so với nông thôn là 30,27209 triệu đồng/năm
Muốn biết với độ tin cậy 95%, khi có cùng mức thu nhập thì mức chênh lệch về chi tiêu của hộ gia đình ở thành thị và nông thôn dao động trong khoảng nào thì ta
đi tìm khoảng tin cậy đối xứng của β2
Với độ tin cậy 95%, khi có cùng mức thu nhập thì mức chênh lệch về chi tiêu của
hộ gia đình ở thành thị và nông thôn dao động trong khoảng (20,901232, 39,642948) USD/tháng
Muốn biết với mức ý nghĩa 5%, có phải mức chi tiêu của các hộ gia đình ở thành thị và nông thôn là khác nhau hay không, ta thực hiện bài toán kiểm định giả thuyết thống kê:
)(
k n
t T se T
Trang 15k n
t T se
Tiếp tục dùng bộ số liệu trên (Sử dụng 935 quan sát trong bộ số liệu ch4bt8.wf1 (trích
từ Applied Econometrics, Asteriou–web của Palgrave) (Data_giaotrinh _ktl_13/ch4bt8)
Dependent Variable: WAGE
Method: Least Squares
Sum squared resid 63232525 Prob(F–statistic) 0.000000
Trang 16Hàm hồi quy mẫu: Wage 12Male3Educ
Lao động là nam:
Educ
Educ Wage
)(1 2 3
Lao động là nữ: Wage 13Educ 580,884830,10292Educ
Ước lượng điểm về mức chênh lệch về lương của nam và nữ (khi có cùng số năm
Muốn biết với mức ý nghĩa 5%, có phải lương của nam và nữ là như nhau (hay hệ
số của biến giả không có ý nghĩa thống kê), ta thực hiện bài toán kiểm định giả thuyết thống kê:
)(
k n
t T se
Trang 17 Muốn biết với mức ý nghĩa 5%, có phải khi cùng số năm đi học thì lương của nữ là thấp hơn của nam (hay lương trung bình của nam là cao hơn nữ) hay không, ta cũng thực hiện bài toán kiểm định giả thuyết thống kê:
)(
k n
t T se
Dùng bộ số liệu trên (Sử dụng 33 quan sát trong bộ số liệu ch3bt4.wf1 (trích từ
Data_giaotrinh _ktl_13/ch3bt4) với các biến:
CT, TN lần lượt là chi têu và thu nhập của người lao động theo tháng (triệu đồng)
GT là biến giả nhằm lượng hóa biến giới tính người lao động (GT = 1 ứng với lao động nam, GT = 0 ứng với lao động nữ)
Dependent Variable: CT Method: Least Squares Date: 04/18/15 Time: 18:16 Sample (adjusted): 1 33 Included observations: 33 after adjustments Variable Coefficient Std Error t–Statistic Prob