Chẳng hạn, với biến Y chỉ lượng chi tiêu cho tiêu dùng mộthộ gia đình và biến X chỉ thu nhập khả dụng của hộ gia đìnhđó, ta thành lập một mô hình tuyến tính dạng Y = β + β X+ ε,trong đó
Trang 1MỞ ĐẦU
Kinh tế lượng với thuật ngữ tiếng Anh là “Econometrics”
được Giáo sư Kinh tế học người Na Uy, A.K Ragnar Frisch
(Nobel kinh tế năm 1969), sử dụng đầu tiên vào khoảng năm
1930 Từ này được ghép từ hai từ gốc là “Econo” có nghĩa là
kinh tế và “Metrics” có nghĩa là đo lường
Từ đó, kinh tế lượng có thể hiểu là “đo lường kinh tế” mặc
dù ngày nay phạm vi của kinh tế lượng đã được mở rộng hơn
nhiều và người ta đã đưa ra nhiều định nghĩa khác nhau để
giải thích Tuy nhiên, phạm vi của giáo trình này tự giới hạn
trong nỗ lực trình bày một khía cạnh quan trọng của kinh tế
lượng :
Xác định về thực nghiệm các quy luật kinh tế.
Các lý thuyết kinh tế thường nêu ra các giả thuyết về chất
(định tính) và khi đó, kinh tế lượng cố gắng lượng hóa các giả
thuyết này (bằng cách định lượng các quan hệ) Chẳng hạn,
kinh tế học vi mô khẳng định rằng khi các điều kiện khác
không thay đổi, nếu giảm giá một loại hàng hóa nào đó thì sẽ
làm tăng lượng cầu về loại hàng hóa này và ngược lại Giả
thuyết này cho biết quan hệ giữa giá cả và lượng cầu là nghịch
biến và kinh tế lượng cố gắng lượng hóa chúng, chẳng hạn cho
biết lượng cầu sẽ tăng/giảm bao nhiêu khi ta giảm/tăng một
đơn vị giá cả Nói khác đi, kinh tế lượng quan tâm đến việc
kiểm định về mặt thực nghiệm các lý thuyết kinh tế
Để làm điều này, kinh tế lượng sử dụng các số liệu thống kê
và các phương pháp thống kê toán để tìm ra bản chất mối quan
hệ giữa các đại lượng
1 Phương pháp Kinh tế lượng.
Nội dung của phương pháp kinh tế lượng thường gồm các
bước sau :
Bước 1 Đặt vấn đề cần khảo sát của lý thuyết kinh tế liên
quan đến giả thuyết về các mối quan hệ giữa các biến kinh tế
Ví dụ, ta khảo sát giả thuyết của kinh tế học vĩ mô cho rằngmức tiêu dùng của các hộ gia đình có quan hệ cùng chiều vớithu nhập khả dụng của họ
Bước 2 Thiết lập mô hình toán học để mô tả mối quan hệ
giữa các biến kinh tế khảo sát
Chẳng hạn, với biến Y chỉ lượng chi tiêu cho tiêu dùng mộthộ gia đình và biến X chỉ thu nhập khả dụng của hộ gia đìnhđó, ta thành lập một mô hình tuyến tính dạng
Y = β + β X+ ε,trong đó β1 và β2 là các tham số cần ước lượng mà ta gọi là
các tham số của mô hình và ε là yếu tố ngẫu nhiên mà nguồngốc tồn tại của nó là do quan hệ giữa các biến kinh tế nóichung là ngẫu nhiên, không chính xác
Bước 3 Sử dụng các số liệu thống kê thu thập được để ước
lượng các tham số của mô hình
Chẳng hạn, dựa trên mẫu thống kê khảo sát trên n hộ giađình, ta được n cặp số liệu (X , Y , với 1 i ni i) ≤ ≤ , trong đó Xi
và Y lần lượt là lượng thu nhập khả dụng và lượng chi tiêui
cho tiêu dùng của hộ gia đình thứ i Dùng một phương pháp
thống kê toán, mà người ta gọi là phương pháp hồi quy, nhằm
ước lượng các tham số β1 và β2.
Bước 4 Phân tích kết quả dựa trên giả thuyết kinh tế
Ví dụ, với mô hình Y = β + β1 2X+ ε nêu trong bước 2 và vớimẫu thống kê trong bước 3 được dùng để ước lượng tham số,nếu ước lượng 0< β <2 1 được kiểm định chấp nhận, ta thấy nóphù hợp với giả thuyết kinh tế trong bước 1 vì β >2 0 cho thấykhi lương thu nhập khả dụng tăng (X tăng) thì lượng chi tiêucho tiêu dùng tăng (Y tăng) đồng thời β <2 1 phù hợp với giả
Trang 2thuyết lượng chi tiêu cho tiêu dùng hộ gia đình không vượt quá
mức thu nhập khả dụng của hộ gia đình đó ( Y X< ) Khi đó, ta
có thể nói rằng mô hình toán học trong bước 2 là phù hợp về
mặt kinh tế Trường hợp mô hình đã chọn không phù hợp về
mặt kinh tế, ta cần trở lại bước 2 để thành lập một mô hình
khác với mong muốn rằng mô hình này sẽ tốt hơn
Bước 5 Khai thác kết quả.
Khi mô hình nhận được phù hợp với giả thuyết kinh tế, ta có
thể dùng mô hình này để :
- Dự báo kết quả
- Kiểm tra hay đề ra chính sách
Ví dụ, với mô hình Y = β + β1 2X+ ε được chấp nhận và với
một mức thu nhập khả dụng X cho trước của một hộ gia đình,
ta dự báo lượng chi tiêu cho tiêu dùng của hộ gia đình đó
Ta minh họa các bước trên qua ví dụ số cụ thể sau :
Bước 1 Giả thuyết kinh tế : mức chi tiêu cho tiêu dùng của
các hộ gia đình có quan hệ cùng chiều với thu nhập khả dụng
của họ
Bước 2 Xét mô hình Y = β + β1 2X+ ε, với Y chỉ lượng chi
tiêu cho tiêu dùng và X chỉ lượng thu nhập khả dụng của một
hộ gia đình, β1 và β2 là các tham số cần ước lượng
Bước 3 Thu thập một mẫu thống kê gồm các cặp (X, Y ,)
trong đó X chỉ lượng thu nhập khả dụng của hộ gia đình (đơn vị
ngàn đồng) và Y chỉ lượng chi tiêu cho tiêu dùng của hộ gia
đình đó (đơn vị ngàn đồng) trong cùng một đơn vị thời gian, ta
có các số liệu
(80, 55 , ) (80, 60 , ) (80, 65 , ) (80,70 , ) (80,75 , ) (100, 65 ,)
(100,70 , ) (100,74 , ) (100, 80 , ) (100, 85 , ) (100, 88 , ) (120,79 ,)
(120, 84 , ) (120, 90 , ) (120, 94 , ) (120, 98 , ) (140, 80 , ) (140, 93 ,)
(140, 95 , ) (140,103 , ) (140,108 , ) (140,113 , ) (140,115 ,) (160,102 , ) (160,107 , ) (160,110 , ) (160,116 , ) (160,118 ,) (160,125 , ) (180,110 , ) (180,115 , ) (180,120 , ) (180,130 ,) (180,135 , ) (180,140 , ) (200,120 , ) (200,136 , ) (200,140 ,) (200,144 , ) (200,145 , ) (220,135 , ) (220,137 , ) (220,140 ,) (220,152 , ) (220,157 , ) (220,160 , ) (220,162 , ) (240,137 ,) (240,145 , ) (240,155 , ) (240,165 , ) (240,175 , ) (240,189 ,) (260,150 , ) (260,152 , ) (260,175 , ) (260,178 , ) (260,180 ,) (260,185 , ) (260,191 )
Biểu diễn các điểm này trên trục tọa độ với trục hoành chỉthu nhập và trục tung chỉ chi tiêu như trong hình 1
Hình 1Rõ ràng với cùng một mức thu nhập khả dụng X như nhau,chi tiêu cho tiêu dùng Y là một biến ngẫu nhiên lấy nhiều giátrị khác nhau và điều này giải thích sự tồn tại tham số ngẫunhiên ε trong mô hình khảo sát sự liên hệ của chi tiêu Y theothu nhập X Một trong những giải thuật đơn giản để xác địnhcác tham số β1 và β2 là ứng với mỗi giá trị của X, ta thay thếcác giá trị Y tương ứng bằng giá trị trung bình của nó (điểm
Trang 3đánh dấu trong hình 2) và tìm đường thẳng đi qua các điểm
này Chẳng hạn, với giá trị X 80= , ta có các giá trị Y tương
ứng là
55, 60, 65, 70 và 75và trung bình của nó là
Bước 4 Do hệ số β =2 0.4833 thỏa điều kiện 0< β <2 1 nên
kết quả này phù hợp với giả thuyết kinh tế trong Bước 1
Bước 5 Ta có thể dùng mô hình nhận được trong Bước 3 để
dự báo Chẳng hạn, nếu biết thu nhập khả dụng của một hộ giađình là X 300= , ta dự đoán chi tiêu cho tiêu dùng trung bìnhcủa hộ gia đình này là Y 171.3233≈ .
Các bước trên cần được thực hiện tuần tự và mỗi bước cómột vai trò khác nhau trong quá trình phân tích một vấn đềkinh tế Tuy nhiên, việc tìm ra bản chất một vấn đề kinh tế làkhông đơn giản Do đó, quá trình nêu trên thường được lặp đilặp lại nhiều lần cho đến khi ta thu được một mô hình chấpnhận được Quá trình phân tích kinh tế lượng như thế có thểbiểu diễn bằng sơ đồ sau
Hình 3Hơn nữa, cần nhấn mạnh rằng thành công của bất kỳ mộtquá trình phân tích kinh tế nào cũng đều phụ thuộc vào việc sửdụng các số liệu thích hợp cũng như phương pháp sử lý các sốliệu đó Có ba loại số liệu : Số liệu theo thời gian (chuỗi thờigian), số liệu chéo và số liệu hỗn hợp
Số liệu theo thời gian là các số liệu thu thập tại từng thời
điểm nhất định Chẳng hạn như số liệu về GDP bình quân của
Trang 4Việt Nam theo các năm từ 1998 – 2006 được cho trong bảng
Bảng 1 : Số liệu theo thời gian
Số liệu chéo là số liệu thu thập tại một thời điểm ở nhiều
nơi, địa phương, đơn vị, khác nhau Chẳng hạn như số liệu về
GDP bình quân trong năm 2006 của các nước Brunei,
Campuchia, Indonesia, Lào, Malaysia, Myanmar, Philippines,
Singapore, Thái Lan, Việt Nam được cho như sau
Campuchia 459 Philippines 1361
Indonesia 1581 Singapore 30162
Bảng 2 : Số liệu chéo
Số liệu hỗn hợp là số liệu tổng hợp của hai loại trên, nghĩa
là các số liệu thu thập tại nhiều thời điểm khác nhau ở nhiều
địa phương, đơn vị khác nhau Chẳng hạn như số liệu về GDP
bình quân của các nước, từ 1998 – 2006
Bảng 3 : Số liệu tổng hợp Nguồn : Tổng hợp báo cáo IMF và ASEAN
Các số liệu này thường là các số liệu về lượng, nghĩa làchúng có thể định lượng bằng những con số như giá cả, thunhập, v.v Đối với các số liệu về chất, nghĩa là số liệu địnhtính như nam/nữ, có/chưa có gia đình, nông thôn / thành thị,
v.v , người ta thường lượng hóa các biến này bằng các biến giả (dummy), chẳng hạn biến X, với X 0= chỉ nam, hay có giađình và X 1= chỉ nữ, hay chưa có gia đình, v.v
Ví dụ 1 Số liệu cho trong bảng sau cho biết tiền lương (Y :
đơn vị USD) trong một tháng của 49 nhân viên, được so sánhbởi giới tính ( D 0= : Nữ , D 1= : Nam)
Trang 5học xã hội, các số liệu thường là phi thực nghiệm, nghĩa là các
số liệu thu thập được thường không xuất phát từ cùng một điều
kiện như nhau Do đó, chất lượng của các số liệu thu thập được
thường không tốt xuất phát từ nhiều nguyên nhân khách quan
cũng như chủ quan, chẳng hạn do sai số của phép đo, sai số do
quan sát hay bỏ sót quan sát, v.v
2 Đánh giá sơ bộ số liệu thống kê.
Khi có các số liệu thống kê, trước hết người ta có thể biểu
diễn chúng bằng các điểm trên một hệ trục tọa độ để có một
nhận định sơ bộ gọi là biểu đồ rời rạc (hay biểu đồ phân tán số
liệu) Ngoài ra, người ta còn có thể ước lượng mối quan hệ giữa
chúng bằng một số các tham số thống kê
Xét các bộ số liệu (X , Y , i 1, , ni i) = , của hai biến ngẫu
nhiên X, Y với các trung bình
Ta xét tham số hiệp phương sai, σX,Y, của chúng, được định
nghĩa là kỳ vọng của tích số (X− µX) (Y− µY),
X, Y có quan hệ nghịch biến với nhau.
Quan hệ đồng biến Quan hệ nghịch biến
Hình 4Để xét trường hợp σX,Y =0, ta chú ý rằng khi X và Y là haibiến số ngẫu nhiên độc lập, nghĩa là
P X x; Y y= = =P X x P Y y= = ,thì X− µX và Y− µY cũng là hai biến số ngẫu nhiên độc lậpvà do đó σX,Y =0.
Trang 6Ngoài ra, khi X và Y có quan hệ tuyến tính với nhau mà ta
còn gọi là có hiện tượng cộng tuyến giữa X và Y, nghĩa là tồn
tại α ≠0 sao cho Y = α + βX , thì vì Yi = αXi + β, với mọi i, ta
X
− µ − µ = − µ α + β − αµ + β
= α − µcho
tuyến tính với nhau thì σX,Y ≠ 0 Do đó, khi σX,Y =0, ta kết
luận rằng X và Y không có quan hệ tuyến tính với nhau Khi đó,
chúng có thể độc lập hay có quan hệ phi tuyến với nhau.
Ví dụ 2 Khảo sát mối quan hệ giữa điểm điểm trung bình ở
PTTH và Đại học của 50 học sinh ở một trường đại học của Mỹ
ta có bảng số liệu sau :
ĐH PTTH ĐH PTTH ĐH PTTH ĐH PTTH ĐH PTTH
2.8 3.42 2.66 4.05 2.33 3.38 3 4.31 2.74 3.79
3.54 3.56 2.96 3.57 3.8 4.16 3.71 3.69 2.41 3.5
2.88 3.13 2.34 3.35 3.22 3.33 3.43 3.15 2.86 3.72.15 3.27 3.13 3.61 2.53 3.56 3.22 3.41 2.56 3.52.22 3.38 3.46 3.83 2.37 3.25 2.82 3 3.28 3.613.31 4.13 2.92 3.56 3.12 4.05 2.64 3.45 2.34 3.162.13 3.95 2.15 3.43 2.54 3.27 2.4 4 2.67 3.642.39 3.81 3 3.52 3.56 3.12 1.77 3.28 2.62 3.933.01 4.33 2.42 3.14 3.25 4.06 3.13 2.81 2.54 3.892.68 2.85 1.77 3.19 2.32 3.61 2.65 3.29 2.04 3.52
Bảng 5Trước hết, ta vẽ đồ thị phân tán của X theo Y (trên cùngmột đồ thị) bằng cách dùng một phần mềm máy tính Chẳnghạn với Eview, ta được
Hình 6Đồ thị trên cho thấy không có mối quan hệ tuyến tính giữaDTBDH và DTBPTTH Trong trường hợp này người ta cho rằngchúng độc lập nhau
Ví dụ 3 Bảng sau cho số liệu về tỷ lệ lạm phát và tỷ lệ thất
nghiệp của Mỹ từ năm 1959 đến 1995 Năm TLLP TLTN Năm TLLP TLTN Năm TLLP TLTN
Trang 7Tương tự, ta có đồ thị phân tán sau
Hình 7Đồ thị trên cho thấy không có mối quan hệ tuyến tính giữa
TLLAMPHAT và TLTHATNGHIEP Trong trường hợp này
người ta cho rằng chúng có quan hệ phi tuyến với nhau
Tuy nhiên ta không thể chỉ dựa vào đồ thị phân tán để đánh
giá mối hệ giữa các bộ số liệu, mà ta còn sử dụng các công cụ
của toán học để đánh giá các quan hệ trên Chẳng hạn, để đo
lường mức độ chặt chẽ của sự tương quan giữa hai biến số ngẫu
nhiên, độc lập với đơn vị đo lường của các biến số ngẫu nhiên,
người ta dùng hệ số tương quan tuyến tính, hay vắn tắt là hệ số tương quan, rX,Y, xác định bởi
X,Y X,Y
X Y
σ σ ,trong đó σX và σY lần lượt là độ lệch chuẩn của X và Y,
(ii) − ≤1 rX,Y ≤1 và rX,Y =0 khi và chỉ khi σX,Y =0.(iii) Nếu X và Y có quan hệ tuyến tính với nhau, nghĩa là
Y= α + βX, thì do µ = α + βµY X, σ = β σ2Y 2 2X, nghĩa là
X Y
X,Y X,Y
tuyến với nhau).
(ii) Khi rX,Y ≈1, ta nói X và Y có quan hệ chặt chẽ vớinhau Nếu rX,Y >0, nghĩa là rX,Y ≈1, thì X và Y có quan hệ
đồng biến chặt Ngược lại, nếu rX,Y <0, nghĩa là rX,Y ≈ −1, thì
X và Y có quan hệ nghịch biến chặt.
Trang 8Ví dụ 4 : Ta khảo sát dữ liệu về giá vàng (GP), chỉ số giá
tiêu dùng (CPI) và chỉ số chứng khoán trên thị trường chứng
khoán NewYork (NYSE) từ năm 1977 đến năm 1991 ở Mỹ
Ta lần lượt khảo sát sự tương quan giữa giá vàng (GP) và
chỉ số giá tiêu dùng (CPI) cũng như sự tương quan giữa chỉ số
chứng khoán (NYSE) và chỉ số giá tiêu dùng (CPI)
Trước hết, ta vẽ đồ thị rời rạc của GP theo CPI và của NYSE
theo CPI, ta được
Đồ thị cho thấy không có sự tương quan chặt giữa GP vàCPI Ngược lại, có sự tương quan đồng biến chặt giữa NYSE vàCPI Bằng công cụ thống kê, ta có
GP,CPI
r =0.388 và rNYSE,CPI =0.932.
Ta thấy rNYSE,CPI ≈1 nên NYSE và CPI có quan hệ đồngbiến chặt Ngược lại, rGP,CPI = nên GP và CPI không có1quan hệ tuyến tính chặt
Người ta thường hình dung hóa các số liệu về hệ số tươngquan như sau :
Khoảng 39% số liệu giữa GP và CPI cho thấy quan hệ giữachúng là tuyến tính; khoảng 94% số liệu giữa NYSE và CPIcho thấy quan hệ giữa chúng là tuyến tính
Ví dụ 5 : Người ta khảo sát hai lý thuyết khác nhau liên
quan đến hành vi tiêu dùng của dân chúng :
- Theo Keynes, tổng tiêu dùng, CONS (ConsumptionExpenditure), có quan hệ đồng biến với tổng thu nhập (khảdụng), YD (Disposable Income)
- Trong khi đó, các nhà kinh tế học cổ điển tin rằng tiêudùng có quan hệ nghịch biến với lãi suất, RR (Real InterestRate), trong nền kinh tế
Trang 9Bằng cách thu thập số liệu về CONS, YD và RR từ năm 1955
đến năm 1986, người ta có số liệu sau
Hình 11và hệ số tương quan rCONS,RR =0.348.Từ đồ thị rời rạc cũng như hệ số tương quan, ta kết luận :
Trang 10Với mô hình của Keynes : Giả thuyết CONS đồng biến theo
YD là đúng Khoảng 99% bộ số liệu của CONS và YD khẳng
định giả thuyết này
Với mô hình kinh tế học cổ điển : Giả thiết CONS nghịch
biến theo RR không chính xác Khảng 35% bộ số liệu của
CONS và RR cho thấy quan hệ giữa chúng là tuyến tính (nhưng
lại là quan hệ đồng biến)
3 Các ký hiệu chung.
Với X, Y, Z, hay X , 1 X , 2 X , để chỉ các biến số ngẫu3
nhiên, các giá trị của chúng lần lượt được ký hiệu là X , j Y ,j
j
Z , hay X , 1, j X2, j, X , , trong đó chỉ số j chỉ số liệu thứ3,j
j của biến tương ứng Đặc biệt đối với chuỗi thời gian, người ta
thường dùng chỉ số t thay cho j, nhằm nhấn mạnh yếu tố thời
gian, chẳng hạn Y và t X lần lượt chỉ số liệu của các biến Y1,t
và X tại thời điểm t.1
Với biến số ngẫu nhiên X lấy các giá trị X , 1 X , , 2 X ,n
trung bình (mean), hay kỳ vọng (expectation) của biến số ngẫu
nhiên X, ký hiệu E X , ( ) µX hay X , xác định bởi
n i
phương sai (variance) của X, ký hiệu σ2X hay var(X) , được định
nghĩa là kỳ vọng của biến (X E(X)− )2, nghĩa là
var(X) E X E(X)= − ,và căn bậc hai của phương sai, ký hiệu σX hay se(X) , được gọi
là độ lệch chuẩn (standard error) của X,
i 1, 2, , n= , hiệp phương sai (covariance), ký hiệu σX,Y hay
cov(X, Y) , được định nghĩa là kỳ vọng của tích(X− µX) (Y− µY), nghĩa là
X Y
cov(X, Y)r
MÔ HÌNH HỒI QUY HAI BIẾN
Hồi quy với thuật ngữ tiếng Anh là “Regression” đượcFrancis Galton sử dụng vào năm 1886 trong một công trìnhnghiên cứu nổi tiếng của ông về chiều cao của những đứa trẻ cócha cao hoặc thấp không bình thường sinh ra Ông quan sát sựphụ thuộc về chiều cao của các cháu trai vào chiều cao cha củachúng Lập đồ thị phân bố, ông thấy
• Với chiều cao cho trước của người cha thì chiều cao củacác cháu trai tương ứng sẽ nằm trong một khoảng, daođộng quanh giá trị trung bình
• Chiều cao của cha tăng thì chiều cao trung bình của cáccháu trai tương ứng cũng tăng
Trang 11Hơn nữa, ông còn nhận thấy rằng chiều cao trung bình của
các cháu trai của nhóm có cha cao nhỏ hơn chiều cao của cha và
chiều cao trung bình của các cháu trai của nhóm có cha thấp
lớn hơn chiều cao của cha
Trong công trình nghiên cứu của mình, Galton dùng cụm từ
“regression to mediocrity”, quy về trung bình, để chỉ xu hướng
này mà sau này người ta gọi là luật Galton Từ đó, vấn đề hồi
quy được nhiều người quan tâm và hoàn thiện, đồng thời hầu
hết các ứng dụng của phân tích hồi quy đã có nội dung rộng
hơn nhiều
1 Phân tích hồi quy
Phân tích hồi quy nghiên cứu mối liên hệ phụ thuộc của một
biến, gọi là biến phụ thuộc hay biến được giải thích, theo một
hay nhiều biến khác, gọi là các biến độc lập hay biến giải
thích.
Chẳng hạn, trong nghiên cứu của Galton, biến “chiều cao
con” là biến phụ thuộc, biến “chiều cao cha” là biến độc lập và
phân tích hồi quy của Galton nhằm nghiên cứu mối liên hệ
giữa hai biến này
Ta có thể đưa ra rất nhiều ví dụ về sự phụ thuộc của mộtbiến vào một hay nhiều biến khác Kỹ thuật phân tích hồi quygiúp ta nghiên cứu mối quan hệ như vậy giữa các biến Tathường ký hiệu
Y chỉ biến phụ thuộc hay biến được giải thích,
i
X chỉ biến độc lập hay biến giải thích thứ i
Phân tích hồi quy giải quyết các vấn đề sau :
• Ước lượng và dự đoán giá trị trung bình của biến phụthuộc với giá trị đã cho của biến độc lập
• Kiểm định giả thiết về bản chất sự phụ thuộc.
Chú ý rằng trong mô hình hồi quy, biến độc lập là biếnkhông ngẫu nhiên, nó có giá trị xác định, còn biến phụ thuộc làbiến ngẫu nhiên có phân phối xác suất, nghĩa là ứng với mỗigiá trị của biến độc lập, biến phụ thuộc có thể lấy nhiều giá trịkhác nhau nhưng các giá trị này tuân theo một luật phân phốixác suất xác định, thường là phân phối chuẩn
Chẳng hạn, trong phân tích hồi quy hai biến, ta xét
Y là biến phụ thuộc,
X là biến độc lập,biến độc lập X lấy các giá trị xác định X , 1 X , , 2 X và ứngn
với mỗi giá trị của X của X, với i 1,2, ,ni = , ta có m(i) giá trịtương ứng của Y, Y , i,1 Y , , i,2 Yi,m(i) trình bày trong bảng 1.
Như vậy, ứng với một giá trị X của X, ta có m(1) số liệu tương1
ứng của Y, ứng với giá trị X của X, ta có m(2) số liệu tương2
ứng của Y, , ứng với giá trị X của X, ta có m(n) số liệun
tương ứng của Y, và do đó ta có cả thảym(1) m(2) m(n) k+ + + = bộ số liệu (X , Y j j)
X
1
Y
Trang 12thiệu trong chương mở đầu, ta có biến độc lập X chỉ lượng thu
nhập khả dụng của một hộ gia đình và biến phụ thuộc Y chỉ
lượng chi tiêu cho tiêu dùng hộ gia đình đó
X lấy các giá trị xác định là 80, 100, 120, 140, 160, 180, 200,
220, 240 và 260 và
Ứng với X 80= , Y lấy các giá trị là 55, 60, 65, 70 và 75,
Ứng với X 100= , Y lấy các giá trị là 65, 70, 74, 80, 85 và
88,
Ứng với X 120= , Y lấy các giá trị là 79, 84, 90, 94 và 98,
Ứng với X 140= , Y lấy các giá trị là 80, 93, 95, 103, 108 và
Ứng với X 260= , Y lấy các giá trị là 150, 152, 175, 178,
2 Mô hình hồi quy.
2.1 Hàm hồi quy tổng thể.
Giả sử ta có các bộ số liệu (X , Yi i, j) cho tổng thể, với
i 1, 2, , n= , j 1, 2, , m(i)= Ứng với mỗi giá trị của X, X X= i,với i 1, 2, , n= , ta có thể có nhiều giá trị của Y tương ứng nênquan hệ của Y theo X không là quan hệ “hàm số” Tuy nhiên,ứng với mỗi giá trị của X, X X= i, ta có duy nhất giá trị trung
bình E Y X X( = i) , nên quan hệ này trở thành quan hệ hàm số
Trang 13và hàm số này được gọi là hàm hồi quy tổng thể, PRF
(Population Regression Functions) mà trong trường hợp này, ta
còn gọi là hàm hồi quy đơn (hồi quy hai biến), do nó chỉ có một
biến độc lập Trường hợp có nhiều hơn một biến độc lập, ta gọi
là hàm hồi quy bội.
Trước hết, giả sử PRF là hàm tuyến tính
E Y X X= = β + β Xmà ta còn viết là
E Y X = β + β X,trong đó β1 và β2 là các tham số chưa biết nhưng cố định, được
gọi là các hệ số hồi quy; β1 gọi là hệ số tự do hay hệ số chặn,
2
β gọi là hệ số góc (nó cho biết tỷ lệ thay đổi của Y đối với X)
Tính tuyến tính ở đây đúng đối với cả tham số cũng như đối
với các biến Điều này không đúng trong nhiều trường hợp
khác, chẳng hạn hàm ( ) 2
E Y X = β + β X tuyến tính đối vớitham số nhưng không tuyến tính (phi tuyến) đối với biến
Ngược lại, hàm E Y X( ) = β + β1 2X tuyến tính đối với biến
nhưng phi tuyến đối với tham số
Chú ý rằng trong phân tích hồi quy tuyến tính, hàm hồi quy
tổng thể được hiểu là tuyến tính đối với tham số nhưng không
nhất thiết tuyến tính theo các biến
Ngoài ra, do Y là biến số ngẫu nhiên, nên ứng với quan sát
thứ i trong tổng thể, X X= i, giá trị Y Y= i tương ứng sai khác
với giá trị trung bình β + β1 2 iX một đại lượng sai số ngẫu
nhiên, ký hiệu εi Do đó, ta còn viết
trong đó ε là một đại lượng ngẫu nhiên và (2.1.2) được gọi là
hàm hồi quy tổng thể ngẫu nhiên Thông thường, đại lượng
ngẫu nhiên ε được ngầm hiểu và khi đó, hàm hồi quy tổng thể(ngẫu nhiên) được viết tắt là
Y = β + β X.
2.2 Hàm hồi quy mẫu.
Cũng như vấn đề về mẫu và tổng thể trong lý thuyết thốngkê, chúng ta hoặc không có tổng thể, hoặc có nhưng không thểnghiên cứu được toàn bộ tổng thể Do đó, ta chỉ có thể ướclượng hàm hồi quy tổng thể với những thông tin từ các mẫungẫu nhiên lấy ra từ tổng thể
Hàm hồi quy xây dựng trên cơ sở của một mẫu ngẫu nhiên
được gọi là hàm hồi quy mẫu, SRF (Sample Regression Function), hay hồi quy mẫu.
Rõ ràng là với nhiều mẫu khác nhau, ta có nhiều SRF khácnhau Do đó, vấn đề đặt ra là cần ước lượng PRF bằng SRF tốtnhất theo nghĩa là SRF này có các tính chất : tuyến tính,không chệch, có độ lệch chuẩn nhỏ nhất
Cụ thể, với hàm hồi quy tổng thể tuyến tính, hàm hồi quymẫu có dạng
Y = β + β X,trong đó µY là ước lượng điểm của E Y X , $( ) βˆ1 là ước lượngđiểm của $β1 và $βˆ2 là ước lượng điểm của β2.
3 Phương pháp bình phương nhỏ nhất.
Phương pháp bình phương nhỏ nhất, OLS (Ordinary LeastSquare), do nhà toán học Đức Carl Fredrich Gauss đưa ra Vớiphương pháp này, kèm theo một vài giả thiết, các ước lượng thuđược có một số tính chất đặc biệt mà nhờ đó nó trở thànhphương pháp hồi quy mạnh và phổ biến nhất
3.1 Nội dung phương pháp OLS.
Trang 14Giả sử Y= β + β1 2X là PRF cần tìm Ta tìm cách ước lượng
nó bằng cách xây dựng SRF dạng
Y = β + β Xtừ một mẫu gồm n quan sát (X , Y , với i 1,2, ,ni i) =
Khi đó, ứng với mỗi i, sai biệt giữa giá trị chính xác, Y , vài
giá trị ước lượng, µˆi $ˆ1 $ˆ2 i
mà ta gọi là các phần dư.
Phương pháp OLS nhằm xác định các tham số $ $( 1 2)
ˆ ˆ,
β β saocho tổng bình phương các phần dư, Σni 1 i= e2, là nhỏ nhất Chú ý
rằng tổng bình phương các phần dư này là hàm theo hai biến
trong đó X , Y là các trung bình của X, Y
Các giá trị $βˆ1 và $βˆ2 nhận được bằng các công thức trên
được gọi là các ước lượng bình phương nhỏ nhất của β1 và β2.Chú ý rằng công thức (3.1.1) có thể viết lại là (xem phầnphụ lục)
Trang 15trong đó σX,Y, rX,Y lần lượt là hiệp phương sai, hệ số tương
quan của X, Y và S , X S lần lượt là độ lệch chuẩn (không hiệuY
chỉnh) của X, Y
Ví dụ 1 Bảng sau cho số liệu về lãi suất ngân hàng (Y) và tỷ
lệ lạm phát (X) trong năm 1988 ở 9 nước
Giả sử rằng sự phụ thuộc E Y X là tuyến tính Ước lượng( )
hàm hồi quy mẫu
Giải Dùng máy tính (xem phần phụ lục), ta được một số đại
một đơn vị thì Y thay đổi 1.249407 đơn vị Nói khác đi, khi tỷ
lệ lạm phát tăng/giảm 1% thì lãi suất ngân hàng tăng/giảm
1.249407%.
Chú ý tính đúng đắn của các kết quả nhận được khi so sánh
với các công thức (3.1.1-3.1.3) Từ
=
3.2 Các giả thiết của mô hình.
Để có thể dùng các công cụ của thống kê toán nhằm đánhgiá chất lượng của mô hình hồi quy tuyến tính, ta cần các giảthiết sau trên biến số X và đại lượng sai số ngẫu nhiên ε,
Giả thiết 1 Biến giải thích X là biến phi ngẫu nhiên, nghĩa
là các giá trị của nó được hoàn toàn xác định Giả thiết nàyđương nhiên được thỏa trong mô hình hồi quy tuyến tính
Giả thiết 2 Kỳ vọng của sai số ngẫu nhiên ε bằng 0, nghĩalà E( )ε =i E(ε X X= i) =0 Giả thiết này có nghĩa là các yếu tốkhông xuất hiện trong mô hình, được đại diện bởi đại lượngngẫu nhiên ε, không ảnh hưởng một cách có hệ thống đến giátrị trung bình của Y
Giả thiết 3 Phương sai của sai số không đổi (phương sai
thuần nhất), nghĩa là ( ) ( ) 2
Var ε = Var ε = σ , với mọi i, j Giảthiết này có nghĩa là các giá trị cụ thể của Y tương ứng vớicùng một giá trị của X đều được phân bố xung quanh giá trịtrung bình của nó với cùng một mức độ phân tán như nhau
Giả thiết 4 Không có tương quan giữa các sai số, nghĩa là
i j
cov( , ) 0ε ε = , với mọi i, j Giả thiết này có nghĩa là sai số ở sốliệu quan sát này không ảnh hưởng gì tới sai số ở số liệu quansát khác
Trang 16Giả thiết 5 Sai số và biến giải thích không có tương quan,
nghĩa là cov( , X) 0ε = Giả thiết này là cần thiết vì nó cho phép
tách bạch ảnh hưởng của X và của các yếu tố không xuất hiện
trong mô hình đến các giá trị của Y Giả thiết này đương nhiên
được thỏa do X là phi ngẫu nhiên
3.3 Tính chất của các ước lượng bình phương nhỏ nhất.
Với các giả thiết cho trong 3.2, ta có
3.3.1 Định lý Gauss – Markov Với các giả thiết 1-5 của mô
hình hồi quy tuyến tính, các ước lượng cho bởi phương pháp
OLS là các ước lượng tuyến tính, không chệch và có phương sai
nhỏ nhất trong lớp các ước lượng tuyến tính không chệch
Phần chứng minh được trình bày trong phần phụ lục
3.3.2 Tính chất các hệ số hồi quy
Các hệ số hồi quy có các tính chất sau :
i) $βˆ1 và $βˆ2 được xác định một cách duy nhất ứng với mỗi
mẫu gồm n cặp quan sát (X , Y Ứng với các mẫu khác nhau,i i)
chúng có giá trị khác nhau
ii) $βˆ1 và $βˆ2 là các ước lượng điểm của β1 và β2 và là các
đại lượng ngẫu nhiên với phương sai cho bởi
$
( )
n 2 i
2
i 1
2 i
i 1
Xˆ
i 1
ˆvar
Trang 17ˆvar 0.0005066243954 2.975456987
0.001507439097
=
3.3.3 Tính chất cho hàm hồi quy mẫu
Hàm hồi quy mẫu Yˆ = β + β$ˆ1 $ˆ2X có các tính chất i) SRF đi qua trung bình mẫu (X, Y , nghĩa là ) Y = β + β$ˆ1 $ˆ2X.ii) Giá trị trung bình của µY bằng với giá trị trung bình quansát Y, nghĩa là µˆY Y=
iii) Giá trị trung bình của phần dư e bằng 0, nghĩa là
n 1
i 1 i n
e = ∑ = e =0.iv) Phần dư e và µY không tương quan, nghĩa làµ
Trang 184 Hệ số xác định mô hình.
Gọi TSS (Total Sum of Squares) là tổng bình phương các sai
số giữa giá trị quan sát Y với giá trị trung bình của chúng,i
ESS (Explained Sum of Squares) là tổng bình phương các sai
lệch giữa giá trị của Y tính theo hàm hồi quy mẫu với giá trị
RSS (Residual Sum of Squares) là tổng bình phương các sai
lệch giữa giá trị quan sát của Y và các giá trị nhận được từ
hàm hồi quy mẫu,
TSS đo độ chính xác của số liệu thống kê,
ESS đo độ chính xác của hàm hồi quy so với trung bình, và
RSS đo độ chính xác của hàm hồi quy mẫu so với hàm hồi
quy tổng thể
Nhận xét rằng
TSS ESS RSS= + Nếu các số liệu quan sát của Y đều nằm trên SRF thì
RSS 0= và ESS RSS=
Nếu hàm hồi quy mẫu phù hợp tốt với các số liệu quan sát
thì ESS sẽ lớn so với RSS
Ngược lại, nếu hàm hồi quy mẫu kém phù hợp với các số liệuquan sát thì RSS sẽ lớn so với ESS
Các nhận xét này được minh họa bởi hình sau
để đo mức độ phù hợp của hàm hồi quy
Ta có 0 R≤ 2 ≤1 và 2 ( )2
X,Y
R = r , với rX,Y là hệ số tương
quan giữa X và Y Do đó, Khi R2 =1, ta được đường hồi quy “hoàn hảo”, mọi sai lệch của
Y (so với trung bình) đều giải thích được bởi mô hình hồi quy.Khi R2 = 0, X và Y không có quan hệ tuyến tính
Trang 19Các tham số liên quan đến hệ số xác định mô hình còn có
thể tính bằng các công thức sau :
R = r , với rX,Y là hệ số tương quan giữa X và Y Ngoài
ra, đẳng thức (3.3.6) còn được viết lại thành (xem phụ lục)
ˆESS n S 9 1.249406687 14.80933973
(so sánh với rX,Y2 = 0.9966371682 = 0.993285644)
Bây giờ, trong ứng dụng, người ta nói rằng biến X giải thích
được trên 99% sự thay đổi của biến Y Nói khác đi, sự thay đổi của tỷ lệ lạm phát giải thích được trên 99% sự thay đổi của lãi suất ngân hàng
Nhìn chung các kết quả tính toán trên khá phức tạp khi sốliệu quan sát lớn hay trong các mô hình khác Trên thực tế,người ta thường dùng các phần mềm kinh tế lượng để hỗ trợcho việc tính toán Chẳng hạn, với phần mềm Eview (xemphần phụ lục), ta được các kết quả cho trong bảng sau
Hình 3 : Bảng kết quả hồi quyGiải thích các kết quả trong bảng
Dependent Variable : Biến phụ thuộc là Y Method : Phương pháp ước lượng là phương pháp OLS Date – Time : Ngày giờ thực hiện
Trang 20Sample : Số liệu mẫu 1 – 9
Included observations : Cở mẫu là 9
Cột Variable : Các biến giải thích có trong mô hình (trong đó
C là biến số tự do)
Cột Coefficient : Giá trị các hệ số hồi quy
với bậc tự do (n – 2))
Cột Prob : Giá trị p – value của thống kê t tương ứng
P( T >4.024432) 0.0050≈ và P( T >32.17985) 0.0000≈
R – Squared : Hệ số R2 =0.993286
Adjusted R – Squared : Hệ số R điều chỉnh 2
S.E of regression : Giá trị ước lượng cho σ : $ 1.724951σ =
Sum squared resid : Tổng bình phương các phần dư ( RSS )
Log likelihood : Tiêu chuẩn ước lượng hợp lý
Durbin – Watson stat : Thống kê Durbin – Watson
Mean dependent var : Giá trị trung bình của biến phụ thuộc
S.D dependent var : Độ lệch chuẩn của biến phụ thuộc
- Akaike info criterion : Tiêu chuẩn Akaike
- Schwarz info criterion : Tiêu chuẩn Schwarz
- F – Statistic : Giá trị của thống kê F 1035.543=
- Prob( F – Statistic) : Giá trị p-value của thống kê F
tương ứngP(F 1035.543) 0.0000> ≈ Với F là biến ngẫu nhiên có phân
phối Fisher có bậc tự do (k 1, n k)− −
5 Phân phối xác suất của các ước lượng.
Như trình bầy trong phần 2.2 về hàm hồi quy mẫu, ứng vớimỗi một mẫu khác nhau, ta nhận được một hàm hồi quy mẫuvới các hệ số hồi quy khác nhau Ví dụ, ta coi như số liệu trongphần 1 về sự tương quan giữa biến X chỉ lượng thu nhập khảdụng của một hộ gia đình và biến phụ thuộc Y chỉ lượng chitiêu cho tiêu dùng hộ gia đình đó như là số liệu của tổng thểcần xác định Từ số liệu tổng thể này, ta lấy ba mẫu khácnhau:
Mẫu 2 :
Trang 21và hàm hồi quy cho mẫu 3 : µY 20,12 0,58Xˆ = +
Đồ thị ba hàm hồi quy này cho trong hình sau :
Hình 4Hơn nữa, mục đích của phân tích hồi quy không chỉ là suyđoán về các hệ số hồi quy tổng thể β1, β2 cũng như hàm hồiquy tổng thể (PRF) bằng các hệ số hồi quy mẫu cũng như hàmhồi quy mẫu (SRF) mà còn phải kiểm tra bản chất sự biếnthiên của các hệ số hồi quy mẫu Ngoài ra, người ta còn cầnthiết phải khai thác các thông tin nhận được từ hàm hồi quymẫu, chẳng hạn như thực hiện các dự báo hay kiểm định cácgiả thuyết về mô hình đặt ra Để làm được các điều này, cầnthiết phải biết các phân phối xác suất của $βˆ1 và $βˆ2 Các phânphối xác suất này phụ thuộc vào phân phối xác suất của các εi
và ta cần thêm giả thiết sau
Trang 22ii) $ $
1
2ˆ 1 1
Với thông tin trên các phân phối xác suất liên quan đến các
hệ số hồi quy nêu trên, ta có thể tìm các khoảng tin cậy cũng
như tiến hành kiểm định các giả thiết liên quan đến các hệ số
hồi quy
5.1 Khoảng tin cậy cho β2.
Xuất phát từ thống kê
$
2
2 2
$
$
2 2
tin cậy cho β2.
5.2 Khoảng tin cậy cho β1.
Tương tự, từ thống kê
$
$
1 1
ta suy ra khoảng tin cậy cho β1 với độ tin cậy γ cho trước.
5.3 Khoảng tin cậy cho σ2.
Từ thống kê
2 2 2
ˆvar β =0.001507439097.Từ đó suy ra
nên với độ tin cậy γ =0.9, tra bảng phân phối Student với
n 9 2 7= − = độ tự do, ta được giá trị C 1.895= và suy rakhoảng tin cậy cho β1 và β2 lần lượt là
Trang 23với độ tin cậy γ =0.9, tra bảng phân phối chi-bình phương với
n 9 2 7= − = độ tự do, ta được khoảng tin cậy cho χ2 là
Ngoài ra, cũng từ các thống kê (5.1), (5.2) và (5.3), ta có thể
kiểm định một số giả thiết liên quan đến các hệ số hồi quy
5.4 So sánh β2 với β2∗ cho trước.
Ta có bài toán kiểm định
β nằm trong khoảng tin cậy của β2 với độ tin cậy γ = − α1 , ta
chấp nhận H Ngược lại, ta bác bỏ H, chấp nhận H
Đặc biệt, với β =2∗ 0, giả thiết H có nghĩa là “biến độc lập X
không ảnh hưởng gì tới biến phụ thuộc Y” Khi đó, thống kê
5.5 So sánh β1 với β1∗ cho trước.
Ta có bài toán kiểm định
5.6 So sánh σ2 với σ20 cho trước.
Ta có bài toán kiểm định
σ nằm trong khoảng tin cậy của σ2 với độ tin cậy γ = − α1 ,
ta chấp nhận H Ngược lại, ta bác bỏ H, chấp nhận H
6 Kiểm định sự phù hợp của hàm hồi quy Phân tích hồi quy và phân tích phương sai.
Trong phần này, ta khảo sát việc phân tích hồi quy theoquan điểm của phân tích phương sai Việc phân tích này cung
Trang 24cấp cho ta một phương pháp hữu ích khác trong việc giải quyết
vấn đề phán đoán thống kê
Xuất phát từ tính chất
TSS ESS RSS= + và R2 ESS
S
2 1
nghĩa là kiểm định giả thiết cho rằng biến độc lập X không
ảnh hưởng gì đến biến phụ thuộc Y
Chú ý rằng khi đó, nghĩa là khi (H) đúng, giá trị F còn cóthể được tính bằng công thức
Ngoài phương pháp kiểm định các hệ số hồi quy bằngkhoảng tin cậy, ta còn có phương pháp kiểm định bằng giá trị
p – value được thực hiện như sau :
i
Tse
β − β
=βBước 2 : Tính p value P( T− = >T )0 , trong đó T St(n 2): −Bước 3 : So sánh giá trị p – value với mức ý nghĩa α chotrước, nếu
p value− < α : Bác bỏ giả thuyết H.
Tương tự cho bài toán kiểm định sự phù hợp của mô hình,với giá trị
Trang 25Thường thì gía trị p–value được tính bằng phần mềm Eview.
Chẳng hạn như trong ví dụ 1, ta có p–value
P( T 32.17985) 0.0000 0.05
= > ≈ < nên ta bác bỏ giả thuyết H
7 Ứng dụng phân tích hồi quy vào dự báo.
Ta có thể dùng hàm hồi quy mẫu để dự báo giá trị của biến
phụ thuộc Y tương ứng với một giá trị của biến độc lập X Có
hai loại dự báo
Dự báo trung bình có điều kiện của Y ứng với X X= 0.
Dự báo giá trị cá biệt của Y ứng với X X= 0.
nhỏ nhất của E Y X X( = 0) Tuy nhiên, µY vẫn sai khác so vớiˆ0
giá trị thực của nó Để có khoảng tin cậy cho E Y X X( = 0) , ta
chú ý rằng µY có phân phối chuẩn với trung bình ˆ0 β + β1 2 0X và
7.2 Dự báo giá trị riêng biệt Y 0
Nếu muốn dự báo giá trị riêng biệt Y khi 0 X X= 0, ta chú ý
Ta có $β + βˆ1 $ˆ2X0 =2.741695 1.2494067 5 8.9887285+ × ≈ ,
Trang 269 9 14.809339730.359937933
se Y =0.599948275
Do đó với α =0.1, tra bảng phân phối Student với độ tự do
n 9 2 7= − = , ta được C 1.895= Từ đó, suy ra khoảng ước lượng
cho mức lãi suất trung bình
2.975456987 1
9 9 14.809339733.33539492
8 Ví dụ tổng hợp
Ví dụ 2 Số liệu về năng suất (Y, đơn vị tạ/ha) và mức phân
bón (X, đơn vị tạ/ha) cho một loại cây trồng tính trên một ha
trong 10 năm từ 1988 đến 1997 cho trong bảng sau
b) Giải thích ý nghĩa kinh tế của các hệ số nhận được
c) Tính độ lệch tiêu chuẩn của các $βˆ.d) Với mức ý nghĩa 5%, hãy cho biết mức phân bón có ảnhhưởng đến năng suất loại cây này không ?
e) Tìm khoảng tin cậy 95% cho các hệ số hồi quy
f) Tính R và giải thích ý nghĩa kết quả nhận được.2g) Với mức phân bón là 20 tạ/ha, hãy dự báo giá trị trungbình và giá trị cá biệt của năng suất với độ tin cậy 95%
Giải a) Trước hết, ta có đồ thị sau
Hình 5Đồ thị trên mô tả quan hệ giữa “năng suất” Y và “phân bón”
X và ta thấy có khả năng quan hệ giữa phân bón và sản lượnglà có dạng tuyến tính
Trang 27Để ước lượng hàm hồi quy tổng thể E Y X( ) = β + β1 2X, ta
xét hàm hồi quy mẫu, µYˆ = β + β$ˆ1 $ˆ2X, trong đó các hệ số $βˆ1 và
Ta nhận được hàm hồi quy mẫu µY 27.125 1.66Xˆ = +
b) Ý nghĩa của các hệ số hồi quy.
Về lý thuyết, khi tăng lượng phân bón thì năng suất cây
trồng sẽ tăng Hệ số $β =ˆ2 1.66 0> cho thấy kết quả trên phù
hợp với lý thuyết Số 1.66 cho biết nếu tăng thêm 1 tạ phân
bón trên 1 ha, năng suất trung bình sẽ tăng 1.66 tạ (Hệ số
$
1
ˆ
27.125
β = cho thể diễn tả rằng khi không bón phân ( X 0= )
thì năng suất trung bình của loại cây trên là 27.125 tạ/ha)
c) Độ lệch chuẩn của các hệ số hồi quy.
Phương sai của các hệ số hồi quy cho bởi công thức
nS
σ
Trong các công thức trên, giá trị σ2 chưa biết được thay
bằng ước lượng không chệch của nó là
e) Khoảng tin cậy cho các hệ số hồi quy.
Để tìm khoảng tin cậy cho các hệ số hồi quy β1 và β2, tadùng các thống kê
Trang 28$
1 1
Với độ tin cậy γ =95% 0.95= , bảng phân phối Student với
10 2 8− = độ tự do cho C 2.306= , ta được
và do đó, khoảng ước lượng cho β2 là [1.43;1.89 ]
Ta có thể giải thích rằng : Nếu tăng thêm 1 tạ phân bón
trên 1 ha, năng suất trung bình sẽ tăng ít nhất 1.43 tạ và
nhiều nhất 1.89 tạ trên 1 ha, với độ tin cậy γ =95% 0.95=
(Khi không bón phân ( X 0= ) thì năng suất trung bình ít nhất
là 272.86 tạ và nhiều nhất là 31.39 tạ/ha)
f) Hệ số xác định mô hình R 2
Từ công thức
X,Y
R =rvà với số liệu rX,Y = =r 0.985418302, ta được
R =0.985418302 =0.971049229
Ta nói sự biến thiên của lượng phân bón giải thích được xấp
xỉ 97% sự biến thiên của năng suất
g) Dự báo giá trị trung bình và giá trị cá biệt khi mức phân
bón là X0 =20 tạ/ha.
Để dự báo giá trị trung bình E Y X X( = 0) = β + β1 2 0X , ta
dùng thống kê
( )ˆ0
se Y = 0.902972209 0.950248498 0.95= ≈ .Mặt khác, X 18= ; X n 7.589466384σ =
E Y X 20= = Y ± ×C se Y =60.32 2.306 0.95± ×
và ta nhận được ước lượng khoảng cho E Y X 20( = ) là
[58.129; 62.511 ]Để dự báo giá trị cá biệt Y khi 0 X X= 0, ta dùng thống kê
µµ
2 2
10 10 7.589466384
5.913194794 16.545578126
Trang 29và ta nhận được ước lượng khoảng cho Y là 0 [54.42; 66.22 ]
Ví dụ 3 Bảng sau cho số liệu về Giá bán (Y đơn vị : ngàn
USD / ft ) và diện tích nhà ở (X đơn vị 2 ft ).2
Diện tích Giá bán Diện tích Giá bán
Hình 7Khi đó ta có thể trả lời các câu hỏi sau :
- Mô hình hồi quy : µY 52.35091 0.13875X= +
- Độ lệch chuẩn của các hệ số hồi quy
- Hệ số xác định mô hình R2 =0.820522
Ví dụ 4 Bảng sau cho số liệu về thu nhập (X đơn vị nghìn
USD / tháng) và chi tiêu cho việc chăm sóc sức khoẻ (Y đơn vịnghìn USD / tháng ) của 51 cá nhân ở Mỹ
Trang 30b) Tính độ lệch tiêu chuẩn của các $β.
c) Với mức ý nghĩa 5%, hãy cho biết thu nhập có ảnh hưởng
đến chi tiêu cho sức khoẻ cá nhân không ?
d) Tính R và giải thích ý nghĩa kết quả nhận được.2
e) Với mức với mức thu nhập X 100= nghìn USD, hãy dự
báo giá trị trung bình và giá trị cá biệt của chi tiêu cho sức
khoẻ cá nhân, với độ tin cậy 95%
Giải Ta có đồ thị phân tán số liệu
Hình 8
Đồ thị trên mô tả quan hệ giữa “Chi tiêu cho chăm sóc sứckhoẻ” Y và “Thu nhập cá nhân” X và ta thấy có khả năngquan hệ giữa phân bón và sản lượng là có dạng tuyến tính
Ta có bảng kết quả hồi quy sau
Hình 9Dựa vào bảng kết quả hồi quy ta có thể trả lời các câu hỏi sau :
- Mô hình hồi quy
Trang 31Ta có, P( t >49.27179) 0.0000 0.05= < ta bác bỏ H, chấp
nhận H Nghĩa là thu nhập có ảnh hưởng đến chi tiêu cho sức
khoẻ
Ta có R2 =0.980216 và P( F >2427.709) 0.0000 0.05= <
Nghĩa là mô hình hồi quy trên giải thích được xấp xĩ 98.02% bộ
số liệu quan sát
Với mức thu nhập X0 =100 nghìn USD ta có,
với 51 2 49− = độ tự do, ta được C 1.96= và ta suy ra,
Khoảng ước lượng cho E Y X 100( = ) là : [10.3885;18.2949 ]
Khoảng ước lượng cho giá trị cá biệt Y là :0
[9.300606;19.38282]
Chương 2
MÔ HÌNH HỒI QUY BỘI
Trong thực tế, một đại lượng thay đổi thường chịu sự tác
động của nhiều hơn một đại lượng Chẳng hạn nhu cầu Y của
một loại hàng hóa thường lệ thuộc vào nhiều yếu tố như thu
nhập người tiêu dùng, giá của hàng hóa đó, giá của hàng hóa
thay thế Do đó, ta cần tổng quát hóa mô hình hồi quy hai
biến trình bầy trong chương 1 cho trường hợp có nhiều hơn hai
biến, mà ta gọi là hồi quy bội.
Trước hết, ta xét trường hợp đơn giản nhất của mô hình hồiquy bội : mô hình hồi quy ba biến Mô hình này khảo sát mộtbiến phụ thuộc Y theo hai biến độc lập X và 2 X Sau đó, mô3
hình này được mở rộng cho trường hợp tổng quát k biến trongđó biến Y phụ thuộc theo các biến X , 2 X , , 3 X k
Nhắc lại rằng ta chỉ xét trường hợp mô hình tuyến tính theotham số và không nhất thiết phải là tuyến tính theo các biến
1 Mô hình hồi quy tuyến tính ba biến.
1.1 Hàm hồi quy tổng thể.
Hàm hồi quy tổng thể (PRF) cho mô hình hồi quy tuyến tính
3 biến có dạng
E Y X , X = β + β X + β X ,trong đó, giá trị của PRF là kỳ vọng có điều kiện của biến Yvới giá trị đã cho của các biến X và 2 X , với Y là biến phụ3
thuộc, X và 2 X là các biến độc lập, 3 β1 là hệ số tự do, β2 và
3
β là các hệ số hồi quy riêng theo các biến.
Với tổng thể gồm N bộ giá trị (X ; X ; Y , i 1,2, , N2,i 3,i i) = ,trong đó Y sai khác với kỳ vọng có điều kiện một đại lượngi
sai số ngẫu nhiên, ký hiệu εi, nghĩa là
Y =E Y X =X , X = X + ε = β + β X + β X + ε .
1.2 Các giả thiết của mô hình.
Giả thiết 1 Giá trị trung bình các sai số bằng 0,
Trang 32Giả thiết 3 Không có hiện tượng tự tương quan giữa các sai
số εi, nghĩa là cov(ε ε =i j, ) 0, với mọi i≠ j.
Giả thiết 4 Không có hiện tượng cộng tuyến giữa X và 2 X ,3
nghĩa là không có quan hệ tuyến tính giữa các biến giải thích
Giả thiết 5 Các sai số εi đều có phân phối chuẩn,
i N 0;
ε : σ , i∀
1.3 Ước lượng tham số.
Để ước lượng tham số của mô hình
E Y X , X = β + β X + β X ,
người ta dùng một mẫu gồm n bộ giá trị (X ; X ; Y ,2,i 3,i i)
i 1, 2, , n= , để thành lập hàm hồi quy mẫu, SRF, dạng
β là ước lượng điểm của βj, với j 1, 2, 3= .
Khi đó, giá trị ước lượng thứ i của SRF sai khác so với giá trị
tương ứng của PRF một đại lượng mà ta gọi là phần dư, ký hiệu ei
Y = β + β X + β X +e ,nghĩa là
e = Y −Y = Y − β − β X − β X , i 1, 2, , n= .
Phương pháp bình phương nhỏ nhất nhằm xác định các giá
trị βˆ1, βˆ2 và βˆ3 sao cho tổng bình phương các phần dư
là nhỏ nhất
Do tổng bình phương các phần dư này là hàm theo ba biến
Trang 33Thế (4) vào (2), (3) và với yi = Yi −Y, x2,i = X2,i −X2,
i 2 2,i 3 3,i 3,i 3
1.4 Phương sai của hệ số hồi quy.
Phương sai và độ lệch chuẩn của ˆ1
β , βˆ2 và βˆ3 được tính bởi
2,i 3,i
i 1
n 2 n 22,i 3,i
i 1 i 1
x x 2
dùng
Trang 34Các tính chất cho hồi quy bội khá giống như cho trường hợp
hồi quy hai biến Cụ thể, ta có
1 Đường hồi quy bội đi qua điểm (Y, X , X 2 3)
ˆ
var β sẽ lớn và do đó, rất khó ước lượng β2 và β3.
7 Công thức của ( )$2
ˆvar β , hay ( )$3
ˆvar β , cho thấy nó tỷ lệ
thuận với σ2, r và tỷ lệ nghịch với 2,3 n 22,i
i 1
x
=
đó, nếu X biến thiên càng lớn thì j,i ( )$ˆj
var β càng nhỏ và khiđó, βj càng được ước lượng chính xác.
8 $βˆ2 và $βˆ3 là các ước lượng tuyến tính không chệch và cóphương sai nhỏ nhất trong lớp các ước lượng tuyến tính khôngchệch của β2 và β3.
Chú ý rằng với các giả thiết đã nêu thì
1.6 Hệ số xác định hồi quy bội.
Trong mô hình hồi quy hai biến, R đo độ thích hợp của2hàm hồi quy Nó cho ta hình ảnh về tỷ lệ của toàn bộ sự biếnđổi của biến phụ thuộc Y do biến giải thích X gây ra Trong môhình hồi quy bội, tỷ lệ của toàn bộ sự khác biệt của biến Y dotất cả các biến giải thích X , 2 X gây ra, gọi là hệ số xác định3
hồi quy bội, R , xác định bởi2
n 2 i
n 2 i
i 1
eESS
Trang 35Ta có 0 R≤ 2 ≤1 Khi R2 =1, ta nói mô hình hồi quy giải
thích 100% sự thay đổi của Y Nếu R2 =0 thì mô hình không giải
thích sự thay đổi nào của Y Ngoài ra ta còn có một tính chất
quan trọng của R là nó là hàm không giảm theo số biến giải2
thích có trong mô hình Dễ thấy rằng ∑ni 1 i= y2 = ∑ni 1= (Yi −Y)2 độc
lập với số biến nhưng ∑ni 1 i= e2 là hàm giảm theo số biến này Do
đó, nếu tăng số biến giải thích của mô hình thì R cũng tăng Vì2
vậy, khi so sánh hai mô hình hồi quy có cùng biến phụ thuộc
nhưng có số biến độc lập khác nhau, ta cần phải cẩn thận trong
việc lựa chọn mô hình với R cao nhất.2
Để so sánh hai số hạng R , ta cần phải tính đến số lượng biến2
độc lập có trong mô hình Có thể thực hiện điều này dễ dàng nếu
chúng ta xem xét một hệ số xác định thay thế khác như sau :
n 2 i
n 2 i
trong đó k là số các tham số trong mô hình bao gồm cả hệ số
tự do ( trong mô hình hồi quy ba biến thì k 3= ) R được gọi2
là R có hiệu chỉnh Thuật ngữ hiệu chỉnh có nghĩa là hiệu2
chỉnh theo bậc tự do tương ứng với các tổng bình phương trong
công thức định nghĩa của R Số bậc tự do của 2
n 2 i
i 1
e
=
∑ là (n k− )và số bậc tự do của
n 2 i
ii) Mặc dù R luôn luôn dương nhưng 2 R có thể âm Nếu2
2
R âm thì khi áp dụng, ta coi giá trị của nó là 0
Trên thực tế, người ta thường dùng R hơn cho dù rằng chưa2có một chứng minh chặt chẽ nào cho thấy tính ưu việt hơn hẳncủa nó so với R 2
Người ta dùng hệ số xác định hồi quy bội đã hiệu chỉnh đểquyết định có nên đưa thêm biến giải thích mới vào mô hìnhhay không ? Có thể chứng minh được rằng việc đưa thêm biếngiải thích là cần thiết chừng nào giá trị của R còn tăng lên2và hệ số hồi quy của biến được đưa thêm vào mô hình khác 0 làcó ý nghĩa
Để biết được hệ số hồi quy của biến mới đưa thêm vào hàmhồi quy khác 0 có ý nghĩa hay không, ta cần kiểm định giảthuyết
k k
1.7 Khoảng tin cậy của các hệ số hồi quy.
Với các giả thiết về εi đã nêu thì
j j
ˆ
β : β σ , với j 1, 2, 3=
Trang 36Do σ2 chưa biết, nên ta dùng độ lệch chuẩn của các $ˆj
Từ đó, với độ tin cậy γ cho trước, ta tìm được khoảng tin cậy
cho T và suy ra khoảng tin cậy cho βj.
1.8 Kiểm định giả thiết về các hệ số hồi quy.
Xuất phát từ thống kê
$
$
j j
với β0j cho trước
1.9 Kiểm định giả thiết đồng thời
Xét giả thiết đồng thời
H :β = β =0,nghĩa là giả thiết rằng các hệ số hồi quy β2 và β3 đồng thời
bằng 0 Điều này có nghĩa là cả hai biến giải thích đều không
có ảnh hưởng gì đến biến phụ thuộc Y Giả thiết này tương
đương với giả thiết
2
H : R =0.Nói khác đi, các giả thiết thống kê này tương đương với giả
thiết về sự phụ thuộc tuyến tính của Y vào hai biến X và 2 X 3
Giả thiết này được kiểm định dựa vào thống kê
2 2
trong đó n là số quan sát của mẫu
1.10 Ví dụ minh họa.
Ví dụ 1 Số liệu về doanh thu (Y), chi phí cho quảng cáo (X2
), tiền lương của nhân viên tiếp thị (X ) của 12 công nhân (đơn3
vị triệu đồng) cho bởi bảng sau
Trang 38Hình 1 : Bảng kết quả hồi quy 3 biếnGiải thích kết quả của bảng hồi quy
- Dependent Variable : Biến phụ thuộc là Y
- Method : Phương pháp ước lượng là phương pháp OLS
- Date – Time : Ngày giờ thực hiện
- Sample : Số liệu mẫu 1 – 12
- Included observations : Số quan sát là 12
- Cột Variable : Các biến giải thích có trong mô hình (trong
đó C là biến số tự do)
- Cột Coefficient : Giá trị các hệ số hồi quy
- R – Squared : Hệ số R2 =0.975657
- Adjusted R – Squared : Hệ số R điều chỉnh 2
- S.E of regression : Giá trị ước lượng cho σ : $ 4.003151σ =
- Sum squared resid : Tổng bình phương các phần dư ( RSS )
- Log likelihood : Tiêu chuẩn ước lượng hợp lý
- Durbin – Watson stat : Giá trị thống kê d của Durbin –
Watson
- Mean dependent var : Giá trị trung bình của biến phụ thuộc
- S.D dependent var : Độ lệch chuẩn của biến phụ thuộc
- Akaike info criterion : Tiêu chuẩn Akaike
- Schwarz info criterion : Tiêu chuẩn Schwarz
- F – Statistic : Giá trị của thống kê F 1035.543=
- Prob( F–Statistic) : Giá trị p-value của thống kê F tương ứng
P(F 180.3545) 0.0000> ≈ Với F là biến ngẫu nhiên có phânphối Fisher có bậc tự do (k 1, n k)− −
Trang 392 Mô hình hồi quy tuyến tính k biến.
2.1 Hàm hồi quy tổng thể
Xét hàm hồi quy tổng thể k biến dạng
E Y X , X , , X = β + β X + β X + + β X ,
trong đó Y là biến phụ thuộc, X , với j 2,3, ,kj = , là các biến
độc lập, β1 là hệ số tự do, βj, với j 2, 3, , k= , là các hệ số hồi
quy riêng
Điều này có nghĩa là tổng thể bao gồm N bộ giá trị
(Y , X , X , , Xi 2,i 3,i k,i) , với i 1, 2, , N= , sao cho
Y = β + β X + β X + + β X + ε ,
trong đó εi là sai số của Y so với kỳ vọng có điều kiệni
( 2 2,i 3 3,i k k,i)
E Y X =X , X =X , , X =X ,
Y = β + β X + β X + + β X + ε,với ε là sai số của Y.
Bây giờ, từ mẫu quan sát, (Y , X , X , , Xi 2,i 3,i k,i) , với
i 1, 2, , n= , lấy từ tổng thể, ta có
với e là phần dư của số hạng thứ j, j 1,2, ,nj = .
Dưới dạng ma trận, với
1 2
n
YYY
1 2
1 2
n
eee
được hoàn toàn xác định
iv) Không có hiện tượng cộng tuyến giữa các biến giải thích.Nói khác đi, hạng của ma trận X bằng k
i
e : N 0;σ , với mọi i
2.3 Ước lượng tham số.
Hàm hồi quy mẫu SRF có dạng
Y = β + β X + β X + + β X +e ,với i 1, 2, , n= , hay dưới dạng ma trận
Trang 40ˆˆˆ
k
e
ˆe
β , , $βˆk được chọn sao cho tổng bình phương của các phần dư
(RSS) nhỏ nhất, nghĩa là
đạt giá trị nhỏ nhất
Ký hiệu X , T Y , $T βˆT và e là ma trận chuyển vị của X, Y,T
Ví dụ 2 Số liệu quan sát của một mẫu cho ở bảng sau Trong đó
Y: Lượng hàng bán được của một loại hàng hóa (tấn / tháng)