Mô Hình Cổ Điển
Trang 1Mô Hình Cổ Điển Allen Bellas
Trần Tùng
Phương pháp bình phương nhỏ nhất (OLS) là phương pháp rất đáng tin cậy trong việc ước lượng mối quan hệ tuyến tính giữa các biến phụ thuộc với các biến giải thích hay các biến độc lập nào đó Theo nghĩa nào đó, phương pháp này là phương pháp đáng tin cậy nhất để ước lượng mối quan hệ tuyến tính này Nó là "đáng tin cậy nhất", tuy nhiên mô hình ước lượng phải thoả mãn 7 giả định Những giả định này thuộc về kỹ thuật, nhưng ở đây chúng ta sẽ cố gắng giải thích chúng là gì và chúng tác động đến kết quả hồi quy như thế nào
I Mô hình hồi quy là tuyến tính theo các hệ số Mô hình phải được định dạng đúng và có thêm yếu
tố sai số
Giả định này gồm có 3 phần Chúng ta sẽ xem xét từng phần một
Đầu tiên, mô hình này phải là mô hình tuyến tính theo các hệ số Điều này có nghĩa là quá trình thực hành hồi quy trên thực tế được miêu tả bởi mối quan hệ dưới dạng
hoặc mối quan hệ thực tế đó có thể được viết lại ví dụ như dưới dạng lấy loga cả hai vế Tốt nhất là nên xem xét phần này trong mối liên hệ với phần thứ hai của giả định
Phần thứ hai của giả định là mô hình phải được định dạng đúng
Kết hợp hai phần đầu tiên của giả định này, chúng ta xem xét việc quá trình xác định biến phụ thuộc thực tế là như thế nào và mối quan hệ tuyến tính hay đạo hàm của nó là tuyến tính Trong khi đối với các quá trình khoa học tự nhiên đơn giản thì việc định dạng mô hình theo phương trình tuyến tính một cách chính xác là hoàn toàn có thể nhưng đối với quá trình quyết định hoạt động của một người có lý trí trong một môi trường phức tạp thì việc này là bất khả thi Theo một nghĩa thực
tế, chúng ta có thể phụ thuộc vào việc định rõ bằng cách nói rằng đó chỉ là định mức sử dụng trong việc xem xét hoàn cảnh đang nghiên cứu Nếu chúng ta tìm kiếm những bản báo cáo, giấy tờ, hay những nghiên cứu dử dụng mô hình cụ thể, đó là lý do có thể chấp nhận được cho việc sử dụng nó Ngược lại cũng như vậy Mặt khác, nếu chúng ta sử dụng mô hình mà chưa từng có ai đã sử dụng thì kết quả của nó có thể gây tranh cãi và bị bác bỏ
Phần thứ ba của giả định này là phải có thêm yếu tố sai số.Điều này đơn giản có nghĩa là yếu tố sai
số được thêm vào giá trị dự đoán sao cho
hơn là giữ nguyên nó, ví dụ:
Có lẽ điều này chẳng có nhiều nghi ngờ hơn giả định là chúng ta có mô hình đúng và mô hình là tuyến tính, nhưng hãy nhìn vào số dư của nó (chúng ta có những số dư ei này sau khi ước lượng mô hình, chúng có thể được quyết định là đúng hay không Nếu mô hình là sai, chúng ta có thể gặp phải những vấn đề như khi mà mô hình đúng là phi tuyến tính nhưng mô hình ước lượng là tuyến tính
Trang 2II Trung bình tổng thể sai số là bằng 0.
Điều này có nghĩa là giá trị của là bằng 0
Bởi vì , điều này có nghĩa là
Do vậy, giá trị ước lượng bằng giá trị thực tế Yi Điều này chẳng có gì là biến động cả
Khi chúng ta thực hiện hồi quy, thì giá trị trung bình của các phần dư về cơ bản là sẽ bằng 0 Đó là một vấn đề thực tế và nó chỉ có liên quan lỏng lẻo đối với những lý thuyết đã được trình bày ở trên
Về cơ bản, mô hình ước lượng sẽ có yếu tố sai số với giá trị trung bình của nó bằng 0 Do vậy khi
mô hình lý thuyết không có yếu tố sai số với giá trị ước lượng của nó là bằng 0, thì hai kiểu mô hình này sẽ là trái ngược nhau
III Tất cả các biến giải thích là không tương quan với yếu tố sai số
Điều này có nghĩa là khi bất kỳ biến giải thích nào mà lớn hơn hay nhỏ đi thì yếu tố sai số sẽ không thay đổi theo nó Nếu điều này là không đúng, ví dụ, biến sai sẽ lớn hơn khi một trong các biến giải thích lớn hơn, và nhỏ hơn khi biến giải thíhc nhỏ hơn Nếu điều này đúng, thì có mô hình khá hơn dựa vào giá trị của biến giải thích
Có ít nhất 2 cách để kiểm định xem điều kiện này có được thỏa mãn hay không
• Các phần dư (giá trị chênh lệch giữa giá trị thực tế của biến phụ thuộc với các giá trị dự đoán) có thể được minh họa trên đồ thị với nhiều biến giải thích khác nhau
• Có thể tính toán được hệ số tương quan giữa các phần dư với các biến giải thích khác nhau Không nên có các mô hình dễ nhận thức rõ trên đồ thị và các hệ số tương quan nên là rất nhỏ
IV Không có sự tương quan giữa các quan sát của yếu tố sai số (không có tương quan chuỗi) Nếu chúng ta xem xét các chuỗi số liệu thời gian (dữ liệu được thu thập từ một nguồn trong nhiều khoảng thời gian khác nhau) Yếu tố sai số trong khoảng thời gian này không có bất kỳ một tương quan nào với yếu tố sai số trong khoảng thời gian trước đó Một cách để kiểm định điều này là minh họa các yếu tố sai số theo thời gian lên đồ thị và xem xét cả các giá trị dương hay giá trị âm có theo một khuôn mẫu hay theo một loạt theo thời gian hay không
Chúng ta có thể nhìn vào vài điểm nào đó tron kiểm định runs test Cơ bản điều này là một kiểm
định để xem xét khi nào có nhiều quan sát đồng thời với cả phần dư âm hoặc phần dư dương là rất đáng ngờ
Xem xét dữ liệu tiêu dùng gas ở Califonia ở trên, chúng ta thấy xuất hiện tương quan chuỗi với một vài dạng mô hình
V Phương sai các yếu tố sai số là bằng nhau1 (phương sai thuần nhất2)
Trang 3Điều này có nghĩa là các sai số của các quan sát này không trải dài ra nhiều hơn các sai số các quan sát khác Điều này rất khó để mô tả, nhưng có một biểu hình đáng tin cậy trong cuốn sách của Studenmund, trang 99 (bản in lần thứ ba)
Biểu hình của Studenmund đưa ra một biểu đồ phân tán (scatterplot) các biến giải thích theo trục hoành, các biến phụ thuộc theo trục tung và minh họa đường hồi quy Khi các giá trị của biến thích càng lớn thì các điểm của biểu đồ phân tán này là càng cách xa đường hồi quy
Đây là một biểu đồ khác nữa
Yếu tố sai số có xu hướng là ngày càng nhỏ khi mà biến độc lập SQFT ngày càng nhỏ Khi SQFT tăng, yếu tố sai số cũng sẽ tăng thêm Điều này có vẻ là dễ dàng hơn việc xem xét khi mà bạn biểu diễn bình phương các các sai số này lên biểu đồ
Về cơ bản, khi chúng ta minh họa bình phương các sai số này lên đồ thị dựa vào tất cả các biến giải thích, kích cỡ của các phần dư có sẽ không phụ thuộc vào giá trị của các biến giải thích Nếu các phần dư tăng khi biến phụ thuộc tăng (hoặc giảm) thì chúng ta có phương sai không thuần nhất
Một ví dụ cho trường hợp này trong đó phương sai không thuần là trong mô hình giá nhà như một hàm của các đặc điểm ngôi nhà Biến động các yếu tố sai số có thể sẽ lớn hơn với giá nhà đắt hơn
và biến động các yếu tố sai số có thể nhỏ hơn với giá nhà rẻ hơn Khoảng tin cậy 95% cho giá trị thực của ngôi nhà khi giá trị ước lượng của nó là 40.000$ có thể sẽ là [$38.000, $42.000] trong khi với khoảng tin cậy tương tự cho ngôi nhà với giá trị ước lượng của nó là $2.000.000 có thể là [$1.900.000, $2.100.000]
Trong cuốn sách của Kennedy (các trang 118 - 21) có một thảo luận rất đáng tin cậy về hệ quả của phương sai không thuần nhất, phương pháp kiểm định phương sai không thuần nhất và một mô tả còn chưa rõ ràng về việc làm thế nào để giải quyết hiện tượng Kennedy đề xuất ra 4 phương pháp
kiểm định hiện tượng phương sai không thuần nhất.
• Dùng mắt kiểm định các phần dư
• Kiểm định Goldfeld-Quandt
• Kiểm định Breusch-Pagan
• Kiểm định White
Trang 4Bạn có thể sử dụng phương pháp đầu tiên trong 4 phương pháp kiểm định này trong Excel Các phương pháp khác có thể dùng trong phần mềm hữu ích nào đó
Để giải quyết hiện tượng tự tương quan, chúng ta có 2 lựa chọn
• Chúng ta có thể sử dụng phương pháp hồi quy bình weighted least square (hơn là phương
pháp bình thông thường (OLS))
• Chúng ta có thể lựa chọn phương pháp tiếp cận theo tư tưởng và loại trừ hiện tượng phương sai không thuần nhất theo một phương pháp tâm linh hơn
VI Không có biến giải thích nào là hàm tuyến tính hoàn hảo của các bất kỳ các biến giải thích khác (không có đa cộng tuyến hoàn hảo) (no perfect multicollinearity)
Điều này có nghĩa là không có biến giải thích nào là một hàm tuyến tính của một hoặc nhiều biến giải thích khác
Điều này có nghĩa là chúng ta tính đến cả biến giải thích X và biến giải thích X2
Ví dụ như chúng ta không thể tính đếm nhiệt độ Fahrenheit và nhiệt độ Celsius (C) bởi vì F = 32 + 1.8 C Điều này có nghĩa là Celsius là một hàm tuyến tính của Fahrenheit
Đây là lý do tại sao chúng ta phải loại trừ một trong các biến giả Ví dụ khi chúng ta có các biến giả cho nam (M) và biến giả cho nữ (F) và không có giới tính khác Khi ấy, với mỗi quan sát M + F = 1 hoặc F = 1 - M hoặc M = 1 - F Bởi vì có 2 biến này là các hàm tuyến tính của các biến khác, một trong số biến này phải được loại trừ
Một cách để xem xét khi nào hiện tượng này là một vấn đề khó khăn là sử dụng ma trận hệ số tương quan với tất cả các biến giải thích và biến phụ thuộc Điều này sẽ không cho chúng ta điều gì
cả khi mà một số lượng lớn các biến có tương quan tuyến tính nhưng nó sẽ cho chúng ta biết khi nào hai biến này là tương quan tuyến tính với nhau
Như một sự lựa chọn, khi chúng ta tiến hành hồi quy tuyến tính trong SPSS, chúng ta có thể yêu cầu chuẩn đoán Thống Kê/Cộng Tuyến (Statistics/Collinearity diagnostic) Thêm vào đó, với tất cả những điều tuyệt vời chúng ta thường có được với kết quả hồi quy của mình, chúng ta sẽ có được
Các Nhân Tố Thổi Phồng Biến Động (VIF) với mỗi biến giải thích Các nhân tố này càng lớn thì rất có
thể chúng ta sẽ có càng nhiều đa cộng tuyến VIF này được tính toán dựa trên phân tích hồi quy mỗi biến giải thích cũng như tất cả các biến giải thích, và VIF là bằng với 1/(1-R2) thu được từ hồi quy này
Kennedy (trang 183-89) có một lựa chọn đa cộng tuyến rất đáng tin cậy Một trích dẫn thú vị trong phần này:
"Khi có hiện tượng đa cộng tuyến thì người ta vẫn không có những định kiến về phương pháp OLS
mà trên thực tế thì nó là tốt (BLUE) Phân tích R2 không bị ảnh hưởng gì cả Trên thực tế, khi tất cả những giả định CLR (nói đúng ra là) vẫn được thỏa mãn, phương pháp ước lượng OLS vẫn giữ được những đặc tính rất có giá trị như đã ghi chú trong chương 3 Hậu quả tồi tệ nhất của hiện tượng đa cộng tuyến chính là những chênh lệch tương đối lớn của phương pháp OLS với những tham số của các biến cộng tuyến Những chênh lệch không nhỏ này nảy sinh bởi vì khi có hiện tượng đa cộng tuyến, quá trình ước lượng OLS không đưa ra được biến động đủ độ tin cậy để tính toán toán tác động của biến độc lập lên biến phụ thuộc."
VII Yếu tố sai số được phân bổ thông thường 3
Điều này rất quan trọng khi phát sinh khoảng tin cậy và thực hiện kiểm định giả thuyết trong những phạm vi mẫu là nhỏ Nhưng với phạm vi mẫu lớn hơn, điều này sẽ trở nên không mấy quan trọng
Để xem xét khi nào các phần dư được phân bố thông thường, chúng ta có thể đưa ra một biểu đồ các phần dư và xem xét khi nào nó xuất hiện thông thường
Trang 5Hầu hết là phải hoàn toàn trung thực khi thực hiện kiểm định thống kê để xác định xem các biếndư
có phân bổ thông thường hay không
Một Ví Dụ về Vi Phạm Giả Định: Tự Tương Quan.
Theo giáo sư Lundberg, "Hiện tượng tự tương quan 4 là một vấn đề khi mà một trong các biến bên
vế phải có tương quan với yếu tố sai số bởi vì nó được xác định như là một phần của hệ thống hành
vi mà phương trình hồi quy là một phần trong hệ thống hành vi ấy Như khi chúng ta đang cố gắng giải thích số giờ mọi người xem TV, chúng ta đặt nhiều tập các hộ gia đình và vế bên phải của số giờ xem TV là một lời từ chối Cả số giờ và tập các hộ gia định sẽ bị tác động bởi thị hiếu xem TV,
và hệ số số các tập sẽ trở nên vô nghĩa (mặc dù số các tập này là rất lớn và đáng kể) Do vậy, hiện tượng tự tương quan là một vấn đề rất rõ ràng và cần phải giải quyết nó bằng cách giảm các mô hình ước lượng chỉ với các biến ngoại sinh bên vế phải, IV hoặc sử dụng phương pháp đồng nhất thức (simultaneous-equtions) nào đó."
Chúng ta hãy xem xét tiếp vấn đề này Giả sử rằng có biến Yi nào đó mà chúng ta rất thích Như vậy sẽ có nhiều biến giải thích X1i, X2i, X 3i, X4i, và X5i mà chúng ta muốn xem xét đến trong phân tích hồi quy Như vậy, phương trình ước lượng sẽ là:
Tuy nhiên, nếu X1 được xác định là tự tương quan, chúng ta sẽ đưa ra một vi phạm giả định của mô hình cổ điển, nghĩa là kết quả thu được từ phương pháp OLS có thể là không đáng tin cậy Ví dụ chúng ta cho rằng
trong đó là yếu tố sai số
Nếu điều này là thế, thì mô hình đúng mà chúng ta nên ước lượng sẽ là
Viết lại phương trình dưới dạng
Phương trình này có yếu tố không đổi , yếu tố sai số và các hệ số gán cho mỗi một biến giải thích Nếu X1i được tính đến trong hồi quy này, nó sẽ tương quan với yếu tố sai số bởi vì X1i là phương trình tuyến tính của yếu tố sai số Bởi vì yếu tố sai số là tương quan với một trong các biến giải thích, nên giả định 3 (III Các biến giải thích là không có tương quan với yếu tố sai số) bị vi phạm Do vậy, phương pháp OLS sẽ không còn giá trị
Bây giờ, biết rằng điều này có thể là một vấn đề khó khăn, vậy chúng ta có thể và chúng ta nên làm gì để giải quyết nó? Trong cuốn sách của Kennedy (chương 10) có mô tả các bước tiếp cận khác nhau để giải quyết vấn đề này Và nếu bạn thích, tôi rất sẵn lòng chia sẻ chúng
1 a constrant variance
2 no heteroskedasticity
3 normally distributed
4 endogeneity