Những Điều Căn Bản Phân Tích Hồi Quy Allen Bellas Trần Tùng Quan Hệ Hàm Số Phần nói ước lượng quan hệ toán học biến Những mối quan hệ gọi mối quan hệ hàm số Chúng cố gắng mô tả biến giải thích (còn gọi biến độc lập) tác động lên biến phụ thuộc Biến giải thích biến xảy Biến phụ thuộc biến kết Ví dụ: Khi cố gắng giải thích chi tiêu dùng người, sử dụng biến giải thích thu nhập độ tuổi Khi giải thích giá tơ, biến giải thích kích cỡ, động máy, độ tin cậy hãng sản xuất độ an tồn tơ Để giải thích giá ngơi nhà biến giải thích kích cỡ, số phòng, tỷ lệ tội phạm khu dân cư độ tuổi ngơi nhà Để dự đốn khả học sinh cuối cấp trung học phổ thông vào đại học, xem xét đến điểm kiểm tra, trình độ giáo dục cha mẹ thu nhập gia đình Vậy với trường hợp khác sao?
Trang 1Những Điều Căn Bản về Phân Tích Hồi Quy
Allen Bellas
Trần Tùng
Quan Hệ Hàm Số
Phần này nói về ước lượng quan hệ toán học giữa các biến Những mối quan hệ này còn được gọi
là mối quan hệ hàm số Chúng cố gắng mô tả các biến giải thích (còn được gọi là biến độc lập) tác động lên biến phụ thuộc như thế nào
Biến giải thích là biến xảy ra
Biến phụ thuộc là biến kết quả
Ví dụ: Khi chúng ta cố gắng giải thích chi tiêu dùng của mọi người, chúng ta có thể sử dụng các
biến giải thích là thu nhập và độ tuổi Khi giải thích giá của một chiếc ô tô, các biến giải thích có thể là kích cỡ, động cơ máy, độ tin cậy của hãng sản xuất cũng như độ an toàn của chiếc ô tô Để giải thích giá của một ngôi nhà các biến giải thích có thể là kích cỡ, số phòng, tỷ lệ tội phạm của khu dân cư cũng như độ tuổi của ngôi nhà Để dự đoán khả năng một học sinh cuối cấp trung học phổ thông vào đại học, chúng ta có thể xem xét đến điểm các bài kiểm tra, trình độ giáo dục của cha mẹ cũng như thu nhập của gia đình anh ta
Vậy với những trường hợp khác thì sao? Đây sẽ là một bài tập dành cho các học viên trong lớp Hãy đưa ra những ví dụ về các biến phụ thuộc của sự ham muốn Tại sao mọi người lại ham muốn
và những biến giải thích quan trọng nhất của nó trong phương trình hồi quy là gì? Làm thế nào để định lượng được biến phụ thuộc và biến giải thích?
Ví Dụ trên mặt phẳng 2 chiều
Tưởng tượng rằng chúng ta có thông tin về thu nhập và chi tiêu tiêu dùng, chúng ta tin tưởng rằng chi tiêu tiêu dùng phụ thuộc vào thu nhập và chúng ta biểu diễn cả 2 biến này lên đồ thị Biểu diễn biến phụ thuộc lên trục tung, còn biến giải thích (biến độc lập) lên trục hoành
Mục đích của phân tích hồi quy là qua những điểm dữ liệu[1], chúng ta có thể kẻ ra một đường tuyến tính biểu diễn mối quan hệ giữa hai biến thu nhập và chi tiêu tiêu dùng một cách đáng tin cậy nhất
Nếu đường tuyến tính có độ dốc hướng lên trên chứng tỏ các điểm dữ liệu có mối tương quan dương Nếu đường tuyến tính dốc xuống dưới thi mối tương quan là âm Còn nếu đường tuyến tính
mà nằm ngang thì là không có mối tương quan giữa các điểm số liệu
Chúng ta nên thận trọng khi sử dụng kết quả hồi quy để lập báo cáo về những gì đang xảy ra ở nhiều mức độ qua những điều đã quan sát được Ví dụ nếu chúng ta quan sát mức thu nhập từ
$10.000 - $30.000 và chúng ta sẽ dụng những dữ liệu thu được này để ước lượng tương quan giữa thu nhập và tiêu dùng, chúng ta nên thận trọng trong việc sử dụng mối tương quan này để dự đoán mức tiêu dùng khi thu nhập là $60.000
Hàm Tuyến Tính
Phương trình hồi quy mà chúng ta sẽ xem xét sẽ ước lượng mối tương quan tuyến tính giữa biến phụ thuộc và biến độc lập (hay biến giải thích)
Tương quan tuyến tính cơ bản:
Trang 2Y là một hàm của X
Nếu X tăng 1 đơn vị thì Y tăng b1 đơn vị
Đồ thị của một hàm tuyến tính
Trang 3Ví dụ: nếu chúng ta xem xét Thu Nhập và Tiêu Dùng: C = b0 + b1I
Tiêu Dùng (C) là một hàm của Thu Nhập (I) Nếu chúng ta hồi quy phương trình này, chúng ta có thể thu được giá trị ước lượng: C=8.435+0.631 Ý nghĩa của những hệ số ước lượng này là gì? Hãy xem xét những ví dụ trước đây Các hệ số này được giải thích như thế nào?
Bây giờ, nếu chúng ta vẽ những điểm dữ liệu lên đồ thị thì rõ ràng mối tương quan này sẽ không phải là một đường tuyến tính Nếu chúng ta cố gắng ước lượng một tương quan tuyến tính giữa biến giải thích và biến phụ thuộc khi mà tương quan này vốn đã không phải là tuyến tính thì sẽ sai Đáng tiếc là chúng ta không thể ước lượng được yếu tố phi tuyến tính; vậy chúng ta phải làm gì? Nếu tương quan là dương và vồng xuống, chúng ta có thể ước lượng mối tương quan dạng:
Điều đó có nghĩa là chúng ta có thể sử dụng đồng thời cả hai biến giải thích X và X2 trong phương trình tuyến tính
Trang 4Nếu tương quan là dương và vồng lên, chúng ta có thể ước lượng mối tương quan dạng:
trong đó b > 0
Trang 5Nếu tương quan là âm và vồng lên, chúng ta có thể ước lượng mối tương quan dạng:
trong đó b1 < 0, hoặc tổng quát hơn trong đó b1 < 0 và a
> 0
Trang 6Nếu tương quan là âm và vồng xuống, chúng ta có thể ước lượng mối tương quan dạng:
trong đó b1 < 0 Hoặc tổng quát hơn, trong đó 0<b<1
Trang 7Dấu Hiệu Dự Đoán các Hệ Số.
Trước khi ước lượng một mô hình cụ thể, chúng ta nên biết những dấu hiệu của các hệ số khác biệt Nếu tương quan giữa biến phụ thuộc với biến độc lập nào đó là dương thì hệ số biến độc lập
là dương Nếu tương quan giữa biến phụ thuộc với biến độc lập nào đó là âm thì hệ số biến độc lập
đó là âm
Trang 8Hãy xem xét các ví dụ trước đây và dự đoán các hệ số.
Ví Dụ: Xem xét chi tiêu tiêu dùng là một hàm của tuổi và thu nhập C = f(I,A) Viết hàm số này dưới
dạng phương trình tuyến tính: Dấu hiệu hệ số b1 là gì? Dấu hiệu hệ số
b2 là gì?
Lớp sẽ đưa ra nhiều ví dụ hơn
Phần Dư và Yếu Tố Sai Số.
Yếu tố sai số là một trong những thực tiễn tiêu chuẩn trong quá trình định ra phương trình ước lượng Giá trị thực tế của biến phụ thuộc bằng giá trị dự đoán (được tính qua phương trình và các
hệ số ước lượng) cộng với yếu tố sai số ngẫu nhiên Điều này thường được viết dưới dạng:
Sau khi hoàn thành ước lượng thực tế, mỗi điểm thu được sẽ chênh lệch với điểm dữ liệu một lượng nhất định Chênh lệch dương giữa giá trị thực tế của Yi với giá trị ước lượng của Yi (còn được gọi là Yi mũ) được gọi là phần dư và được biểu diễn là (epsiloni)là yếu tố sai số sử dụng trong mô hình và ei là phần dư trong quá trình ước lượng xem xét phương trình biểu diễn ở trên Dựa vào phương trình ở trên, kết quả ước lượng mô hình có thể viết dưới dạng:
Tương Quan Nội Sinh
Tương Quan Nội Sinh[2] là hiện tượng khi một biến giải thích trong mô hình phụ thuộc vào các biến giải thích khác Kết quả phân tích hồi quy sẽ không có giá trị và nó cũng là một vấn đề thú vị nảy sinh khi xem xét lại những công việc của một người nào đó
Ví Dụ: Nếu chúng ta đang cố gắng xác định tác động của chương trình hướng thanh thiếu niên
tránh xa các tệ nạn, chúng ta có thể nhìn vào mối quan hệ giữa biến phụ thuộc là khả năng một cá nhân bị bắt với nhiều biến giải thích là các yếu tố khác nhau của chương trình Điều này có thể chẳng đem lại kết quả gì, tuy nhiên, khi mà khả năng phạm tội của một thanh thiếu niên tham gia vào chương trình là phụ thuộc vào các biến giải thích
Ví Dụ: giả sử rằng chúng ta đang cố gắng xác định chương trình tác động đến khu dân cư không phạm tội Các biến giải thích và các biến phụ thuộc sẽ là như thế nào? Làm thế nào để hiện tượng
tự tương quan ăn khớp ở đây và có phải nó sẽ khiến cho chương trình dường như tác động tới khu dân cư nhiều hoặc ít hơn so với mức độ tác động thực tế không?
[1] Data points
[2] Endogeneity