1. Trang chủ
  2. » Thể loại khác

Kinh tế lượng tuấn anh new

110 216 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 110
Dung lượng 13,54 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Chẳng hạn, với biến Y chỉ lượng chi tiêu cho tiêu dùng mộthộ gia đình và biến X chỉ thu nhập khả dụng của hộ gia đìnhđó, ta thành lập một mô hình tuyến tính dạng Y = β + β X+ ε,trong đó

Trang 1

MỞ ĐẦU

Kinh tế lượng với thuật ngữ tiếng Anh là “Econometrics”

được Giáo sư Kinh tế học người Na Uy, A.K Ragnar Frisch

(Nobel kinh tế năm 1969), sử dụng đầu tiên vào khoảng năm

1930 Từ này được ghép từ hai từ gốc là “Econo” có nghĩa là

kinh tế và “Metrics” có nghĩa là đo lường

Từ đó, kinh tế lượng có thể hiểu là “đo lường kinh tế” mặc

dù ngày nay phạm vi của kinh tế lượng đã được mở rộng hơn

nhiều và người ta đã đưa ra nhiều định nghĩa khác nhau để

giải thích Tuy nhiên, phạm vi của giáo trình này tự giới hạn

trong nỗ lực trình bày một khía cạnh quan trọng của kinh tế

lượng :

Xác định về thực nghiệm các quy luật kinh tế.

Các lý thuyết kinh tế thường nêu ra các giả thuyết về chất

(định tính) và khi đó, kinh tế lượng cố gắng lượng hóa các giả

thuyết này (bằng cách định lượng các quan hệ) Chẳng hạn,

kinh tế học vi mô khẳng định rằng khi các điều kiện khác

không thay đổi, nếu giảm giá một loại hàng hóa nào đó thì sẽ

làm tăng lượng cầu về loại hàng hóa này và ngược lại Giả

thuyết này cho biết quan hệ giữa giá cả và lượng cầu là nghịch

biến và kinh tế lượng cố gắng lượng hóa chúng, chẳng hạn cho

biết lượng cầu sẽ tăng/giảm bao nhiêu khi ta giảm/tăng một

đơn vị giá cả Nói khác đi, kinh tế lượng quan tâm đến việc

kiểm định về mặt thực nghiệm các lý thuyết kinh tế

Để làm điều này, kinh tế lượng sử dụng các số liệu thống kê

và các phương pháp thống kê toán để tìm ra bản chất mối quan

hệ giữa các đại lượng

1 Phương pháp Kinh tế lượng.

Nội dung của phương pháp kinh tế lượng thường gồm các

bước sau :

Bước 1 Đặt vấn đề cần khảo sát của lý thuyết kinh tế liên

quan đến giả thuyết về các mối quan hệ giữa các biến kinh tế

Ví dụ, ta khảo sát giả thuyết của kinh tế học vĩ mô cho rằngmức tiêu dùng của các hộ gia đình có quan hệ cùng chiều vớithu nhập khả dụng của họ

Bước 2 Thiết lập mô hình toán học để mô tả mối quan hệ

giữa các biến kinh tế khảo sát

Chẳng hạn, với biến Y chỉ lượng chi tiêu cho tiêu dùng mộthộ gia đình và biến X chỉ thu nhập khả dụng của hộ gia đìnhđó, ta thành lập một mô hình tuyến tính dạng

Y = β + β X+ ε,trong đó β1 và β2 là các tham số cần ước lượng mà ta gọi là

các tham số của mô hình và ε là yếu tố ngẫu nhiên mà nguồngốc tồn tại của nó là do quan hệ giữa các biến kinh tế nóichung là ngẫu nhiên, không chính xác

Bước 3 Sử dụng các số liệu thống kê thu thập được để ước

lượng các tham số của mô hình

Chẳng hạn, dựa trên mẫu thống kê khảo sát trên n hộ giađình, ta được n cặp số liệu (X , Y , với 1 i ni i) ≤ ≤ , trong đó Xi

và Y lần lượt là lượng thu nhập khả dụng và lượng chi tiêui

cho tiêu dùng của hộ gia đình thứ i Dùng một phương pháp

thống kê toán, mà người ta gọi là phương pháp hồi quy, nhằm

ước lượng các tham số β1 và β2.

Bước 4 Phân tích kết quả dựa trên giả thuyết kinh tế

Ví dụ, với mô hình Y = β + β1 2X+ ε nêu trong bước 2 và vớimẫu thống kê trong bước 3 được dùng để ước lượng tham số,nếu ước lượng 0< β <2 1 được kiểm định chấp nhận, ta thấy nóphù hợp với giả thuyết kinh tế trong bước 1 vì β >2 0 cho thấykhi lương thu nhập khả dụng tăng (X tăng) thì lượng chi tiêucho tiêu dùng tăng (Y tăng) đồng thời β <2 1 phù hợp với giả

Trang 2

thuyết lượng chi tiêu cho tiêu dùng hộ gia đình không vượt quá

mức thu nhập khả dụng của hộ gia đình đó ( Y X< ) Khi đó, ta

có thể nói rằng mô hình toán học trong bước 2 là phù hợp về

mặt kinh tế Trường hợp mô hình đã chọn không phù hợp về

mặt kinh tế, ta cần trở lại bước 2 để thành lập một mô hình

khác với mong muốn rằng mô hình này sẽ tốt hơn

Bước 5 Khai thác kết quả.

Khi mô hình nhận được phù hợp với giả thuyết kinh tế, ta có

thể dùng mô hình này để :

- Dự báo kết quả

- Kiểm tra hay đề ra chính sách

Ví dụ, với mô hình Y = β + β1 2X+ ε được chấp nhận và với

một mức thu nhập khả dụng X cho trước của một hộ gia đình,

ta dự báo lượng chi tiêu cho tiêu dùng của hộ gia đình đó

Ta minh họa các bước trên qua ví dụ số cụ thể sau :

Bước 1 Giả thuyết kinh tế : mức chi tiêu cho tiêu dùng của

các hộ gia đình có quan hệ cùng chiều với thu nhập khả dụng

của họ

Bước 2 Xét mô hình Y = β + β1 2X+ ε, với Y chỉ lượng chi

tiêu cho tiêu dùng và X chỉ lượng thu nhập khả dụng của một

hộ gia đình, β1 và β2 là các tham số cần ước lượng

Bước 3 Thu thập một mẫu thống kê gồm các cặp (X, Y ,)

trong đó X chỉ lượng thu nhập khả dụng của hộ gia đình (đơn vị

ngàn đồng) và Y chỉ lượng chi tiêu cho tiêu dùng của hộ gia

đình đó (đơn vị ngàn đồng) trong cùng một đơn vị thời gian, ta

có các số liệu

(80, 55 , ) (80, 60 , ) (80, 65 , ) (80,70 , ) (80,75 , ) (100, 65 ,)

(100,70 , ) (100,74 , ) (100, 80 , ) (100, 85 , ) (100, 88 , ) (120,79 ,)

(120, 84 , ) (120, 90 , ) (120, 94 , ) (120, 98 , ) (140, 80 , ) (140, 93 ,)

(140, 95 , ) (140,103 , ) (140,108 , ) (140,113 , ) (140,115 ,) (160,102 , ) (160,107 , ) (160,110 , ) (160,116 , ) (160,118 ,) (160,125 , ) (180,110 , ) (180,115 , ) (180,120 , ) (180,130 ,) (180,135 , ) (180,140 , ) (200,120 , ) (200,136 , ) (200,140 ,) (200,144 , ) (200,145 , ) (220,135 , ) (220,137 , ) (220,140 ,) (220,152 , ) (220,157 , ) (220,160 , ) (220,162 , ) (240,137 ,) (240,145 , ) (240,155 , ) (240,165 , ) (240,175 , ) (240,189 ,) (260,150 , ) (260,152 , ) (260,175 , ) (260,178 , ) (260,180 ,) (260,185 , ) (260,191 )

Biểu diễn các điểm này trên trục tọa độ với trục hoành chỉthu nhập và trục tung chỉ chi tiêu như trong hình 1

Hình 1Rõ ràng với cùng một mức thu nhập khả dụng X như nhau,chi tiêu cho tiêu dùng Y là một biến ngẫu nhiên lấy nhiều giátrị khác nhau và điều này giải thích sự tồn tại tham số ngẫunhiên ε trong mô hình khảo sát sự liên hệ của chi tiêu Y theothu nhập X Một trong những giải thuật đơn giản để xác địnhcác tham số β1 và β2 là ứng với mỗi giá trị của X, ta thay thếcác giá trị Y tương ứng bằng giá trị trung bình của nó (điểm

Trang 3

đánh dấu trong hình 2) và tìm đường thẳng đi qua các điểm

này Chẳng hạn, với giá trị X 80= , ta có các giá trị Y tương

ứng là

55, 60, 65, 70 và 75và trung bình của nó là

Bước 4 Do hệ số β =2 0.4833 thỏa điều kiện 0< β <2 1 nên

kết quả này phù hợp với giả thuyết kinh tế trong Bước 1

Bước 5 Ta có thể dùng mô hình nhận được trong Bước 3 để

dự báo Chẳng hạn, nếu biết thu nhập khả dụng của một hộ giađình là X 300= , ta dự đoán chi tiêu cho tiêu dùng trung bìnhcủa hộ gia đình này là Y 171.3233≈ .

Các bước trên cần được thực hiện tuần tự và mỗi bước cómột vai trò khác nhau trong quá trình phân tích một vấn đềkinh tế Tuy nhiên, việc tìm ra bản chất một vấn đề kinh tế làkhông đơn giản Do đó, quá trình nêu trên thường được lặp đilặp lại nhiều lần cho đến khi ta thu được một mô hình chấpnhận được Quá trình phân tích kinh tế lượng như thế có thểbiểu diễn bằng sơ đồ sau

Hình 3Hơn nữa, cần nhấn mạnh rằng thành công của bất kỳ mộtquá trình phân tích kinh tế nào cũng đều phụ thuộc vào việc sửdụng các số liệu thích hợp cũng như phương pháp sử lý các sốliệu đó Có ba loại số liệu : Số liệu theo thời gian (chuỗi thờigian), số liệu chéo và số liệu hỗn hợp

Số liệu theo thời gian là các số liệu thu thập tại từng thời

điểm nhất định Chẳng hạn như số liệu về GDP bình quân của

Trang 4

Việt Nam theo các năm từ 1998 – 2006 được cho trong bảng

Bảng 1 : Số liệu theo thời gian

Số liệu chéo là số liệu thu thập tại một thời điểm ở nhiều

nơi, địa phương, đơn vị, khác nhau Chẳng hạn như số liệu về

GDP bình quân trong năm 2006 của các nước Brunei,

Campuchia, Indonesia, Lào, Malaysia, Myanmar, Philippines,

Singapore, Thái Lan, Việt Nam được cho như sau

Campuchia 459 Philippines 1361

Indonesia 1581 Singapore 30162

Bảng 2 : Số liệu chéo

Số liệu hỗn hợp là số liệu tổng hợp của hai loại trên, nghĩa

là các số liệu thu thập tại nhiều thời điểm khác nhau ở nhiều

địa phương, đơn vị khác nhau Chẳng hạn như số liệu về GDP

bình quân của các nước, từ 1998 – 2006

Bảng 3 : Số liệu tổng hợp Nguồn : Tổng hợp báo cáo IMF và ASEAN

Các số liệu này thường là các số liệu về lượng, nghĩa làchúng có thể định lượng bằng những con số như giá cả, thunhập, v.v Đối với các số liệu về chất, nghĩa là số liệu địnhtính như nam/nữ, có/chưa có gia đình, nông thôn / thành thị,

v.v , người ta thường lượng hóa các biến này bằng các biến giả (dummy), chẳng hạn biến X, với X 0= chỉ nam, hay có giađình và X 1= chỉ nữ, hay chưa có gia đình, v.v

Ví dụ 1 Số liệu cho trong bảng sau cho biết tiền lương (Y :

đơn vị USD) trong một tháng của 49 nhân viên, được so sánhbởi giới tính ( D 0= : Nữ , D 1= : Nam)

Trang 5

học xã hội, các số liệu thường là phi thực nghiệm, nghĩa là các

số liệu thu thập được thường không xuất phát từ cùng một điều

kiện như nhau Do đó, chất lượng của các số liệu thu thập được

thường không tốt xuất phát từ nhiều nguyên nhân khách quan

cũng như chủ quan, chẳng hạn do sai số của phép đo, sai số do

quan sát hay bỏ sót quan sát, v.v

2 Đánh giá sơ bộ số liệu thống kê.

Khi có các số liệu thống kê, trước hết người ta có thể biểu

diễn chúng bằng các điểm trên một hệ trục tọa độ để có một

nhận định sơ bộ gọi là biểu đồ rời rạc (hay biểu đồ phân tán số

liệu) Ngoài ra, người ta còn có thể ước lượng mối quan hệ giữa

chúng bằng một số các tham số thống kê

Xét các bộ số liệu (X , Y , i 1, , ni i) = , của hai biến ngẫu

nhiên X, Y với các trung bình

Ta xét tham số hiệp phương sai, σX,Y, của chúng, được định

nghĩa là kỳ vọng của tích số (X− µX) (Y− µY),

X, Y có quan hệ nghịch biến với nhau.

Quan hệ đồng biến Quan hệ nghịch biến

Hình 4Để xét trường hợp σX,Y =0, ta chú ý rằng khi X và Y là haibiến số ngẫu nhiên độc lập, nghĩa là

P X x; Y y= = =P X x P Y y= = ,thì X− µX và Y− µY cũng là hai biến số ngẫu nhiên độc lậpvà do đó σX,Y =0.

Trang 6

Ngoài ra, khi X và Y có quan hệ tuyến tính với nhau mà ta

còn gọi là có hiện tượng cộng tuyến giữa X và Y, nghĩa là tồn

tại α ≠0 sao cho Y = α + βX , thì vì Yi = αXi + β, với mọi i, ta

X

− µ − µ = − µ α + β − αµ + β

= α − µcho

tuyến tính với nhau thì σX,Y ≠ 0 Do đó, khi σX,Y =0, ta kết

luận rằng X và Y không có quan hệ tuyến tính với nhau Khi đó,

chúng có thể độc lập hay có quan hệ phi tuyến với nhau.

Ví dụ 2 Khảo sát mối quan hệ giữa điểm điểm trung bình ở

PTTH và Đại học của 50 học sinh ở một trường đại học của Mỹ

ta có bảng số liệu sau :

ĐH PTTH ĐH PTTH ĐH PTTH ĐH PTTH ĐH PTTH

2.8 3.42 2.66 4.05 2.33 3.38 3 4.31 2.74 3.79

3.54 3.56 2.96 3.57 3.8 4.16 3.71 3.69 2.41 3.5

2.88 3.13 2.34 3.35 3.22 3.33 3.43 3.15 2.86 3.72.15 3.27 3.13 3.61 2.53 3.56 3.22 3.41 2.56 3.52.22 3.38 3.46 3.83 2.37 3.25 2.82 3 3.28 3.613.31 4.13 2.92 3.56 3.12 4.05 2.64 3.45 2.34 3.162.13 3.95 2.15 3.43 2.54 3.27 2.4 4 2.67 3.642.39 3.81 3 3.52 3.56 3.12 1.77 3.28 2.62 3.933.01 4.33 2.42 3.14 3.25 4.06 3.13 2.81 2.54 3.892.68 2.85 1.77 3.19 2.32 3.61 2.65 3.29 2.04 3.52

Bảng 5Trước hết, ta vẽ đồ thị phân tán của X theo Y (trên cùngmột đồ thị) bằng cách dùng một phần mềm máy tính Chẳnghạn với Eview, ta được

Hình 6Đồ thị trên cho thấy không có mối quan hệ tuyến tính giữaDTBDH và DTBPTTH Trong trường hợp này người ta cho rằngchúng độc lập nhau

Ví dụ 3 Bảng sau cho số liệu về tỷ lệ lạm phát và tỷ lệ thất

nghiệp của Mỹ từ năm 1959 đến 1995 Năm TLLP TLTN Năm TLLP TLTN Năm TLLP TLTN

Trang 7

Tương tự, ta có đồ thị phân tán sau

Hình 7Đồ thị trên cho thấy không có mối quan hệ tuyến tính giữa

TLLAMPHAT và TLTHATNGHIEP Trong trường hợp này

người ta cho rằng chúng có quan hệ phi tuyến với nhau

Tuy nhiên ta không thể chỉ dựa vào đồ thị phân tán để đánh

giá mối hệ giữa các bộ số liệu, mà ta còn sử dụng các công cụ

của toán học để đánh giá các quan hệ trên Chẳng hạn, để đo

lường mức độ chặt chẽ của sự tương quan giữa hai biến số ngẫu

nhiên, độc lập với đơn vị đo lường của các biến số ngẫu nhiên,

người ta dùng hệ số tương quan tuyến tính, hay vắn tắt là hệ số tương quan, rX,Y, xác định bởi

X,Y X,Y

X Y

σ σ ,trong đó σX và σY lần lượt là độ lệch chuẩn của X và Y,

(ii) − ≤1 rX,Y ≤1 và rX,Y =0 khi và chỉ khi σX,Y =0.(iii) Nếu X và Y có quan hệ tuyến tính với nhau, nghĩa là

Y= α + βX, thì do µ = α + βµY X, σ = β σ2Y 2 2X, nghĩa là

X Y

X,Y X,Y

tuyến với nhau).

(ii) Khi rX,Y ≈1, ta nói X và Y có quan hệ chặt chẽ vớinhau Nếu rX,Y >0, nghĩa là rX,Y ≈1, thì X và Y có quan hệ

đồng biến chặt Ngược lại, nếu rX,Y <0, nghĩa là rX,Y ≈ −1, thì

X và Y có quan hệ nghịch biến chặt.

Trang 8

Ví dụ 4 : Ta khảo sát dữ liệu về giá vàng (GP), chỉ số giá

tiêu dùng (CPI) và chỉ số chứng khoán trên thị trường chứng

khoán NewYork (NYSE) từ năm 1977 đến năm 1991 ở Mỹ

Ta lần lượt khảo sát sự tương quan giữa giá vàng (GP) và

chỉ số giá tiêu dùng (CPI) cũng như sự tương quan giữa chỉ số

chứng khoán (NYSE) và chỉ số giá tiêu dùng (CPI)

Trước hết, ta vẽ đồ thị rời rạc của GP theo CPI và của NYSE

theo CPI, ta được

Đồ thị cho thấy không có sự tương quan chặt giữa GP vàCPI Ngược lại, có sự tương quan đồng biến chặt giữa NYSE vàCPI Bằng công cụ thống kê, ta có

GP,CPI

r =0.388 và rNYSE,CPI =0.932.

Ta thấy rNYSE,CPI ≈1 nên NYSE và CPI có quan hệ đồngbiến chặt Ngược lại, rGP,CPI = nên GP và CPI không có1quan hệ tuyến tính chặt

Người ta thường hình dung hóa các số liệu về hệ số tươngquan như sau :

Khoảng 39% số liệu giữa GP và CPI cho thấy quan hệ giữachúng là tuyến tính; khoảng 94% số liệu giữa NYSE và CPIcho thấy quan hệ giữa chúng là tuyến tính

Ví dụ 5 : Người ta khảo sát hai lý thuyết khác nhau liên

quan đến hành vi tiêu dùng của dân chúng :

- Theo Keynes, tổng tiêu dùng, CONS (ConsumptionExpenditure), có quan hệ đồng biến với tổng thu nhập (khảdụng), YD (Disposable Income)

- Trong khi đó, các nhà kinh tế học cổ điển tin rằng tiêudùng có quan hệ nghịch biến với lãi suất, RR (Real InterestRate), trong nền kinh tế

Trang 9

Bằng cách thu thập số liệu về CONS, YD và RR từ năm 1955

đến năm 1986, người ta có số liệu sau

Hình 11và hệ số tương quan rCONS,RR =0.348.Từ đồ thị rời rạc cũng như hệ số tương quan, ta kết luận :

Trang 10

Với mô hình của Keynes : Giả thuyết CONS đồng biến theo

YD là đúng Khoảng 99% bộ số liệu của CONS và YD khẳng

định giả thuyết này

Với mô hình kinh tế học cổ điển : Giả thiết CONS nghịch

biến theo RR không chính xác Khảng 35% bộ số liệu của

CONS và RR cho thấy quan hệ giữa chúng là tuyến tính (nhưng

lại là quan hệ đồng biến)

3 Các ký hiệu chung.

Với X, Y, Z, hay X , 1 X , 2 X , để chỉ các biến số ngẫu3

nhiên, các giá trị của chúng lần lượt được ký hiệu là X , j Y ,j

j

Z , hay X , 1, j X2, j, X , , trong đó chỉ số j chỉ số liệu thứ3,j

j của biến tương ứng Đặc biệt đối với chuỗi thời gian, người ta

thường dùng chỉ số t thay cho j, nhằm nhấn mạnh yếu tố thời

gian, chẳng hạn Y và t X lần lượt chỉ số liệu của các biến Y1,t

và X tại thời điểm t.1

Với biến số ngẫu nhiên X lấy các giá trị X , 1 X , , 2 X ,n

trung bình (mean), hay kỳ vọng (expectation) của biến số ngẫu

nhiên X, ký hiệu E X , ( ) µX hay X , xác định bởi

n i

phương sai (variance) của X, ký hiệu σ2X hay var(X) , được định

nghĩa là kỳ vọng của biến (X E(X)− )2, nghĩa là

var(X) E X E(X)= − ,và căn bậc hai của phương sai, ký hiệu σX hay se(X) , được gọi

là độ lệch chuẩn (standard error) của X,

i 1, 2, , n= , hiệp phương sai (covariance), ký hiệu σX,Y hay

cov(X, Y) , được định nghĩa là kỳ vọng của tích(X− µX) (Y− µY), nghĩa là

X Y

cov(X, Y)r

MÔ HÌNH HỒI QUY HAI BIẾN

Hồi quy với thuật ngữ tiếng Anh là “Regression” đượcFrancis Galton sử dụng vào năm 1886 trong một công trìnhnghiên cứu nổi tiếng của ông về chiều cao của những đứa trẻ cócha cao hoặc thấp không bình thường sinh ra Ông quan sát sựphụ thuộc về chiều cao của các cháu trai vào chiều cao cha củachúng Lập đồ thị phân bố, ông thấy

• Với chiều cao cho trước của người cha thì chiều cao củacác cháu trai tương ứng sẽ nằm trong một khoảng, daođộng quanh giá trị trung bình

• Chiều cao của cha tăng thì chiều cao trung bình của cáccháu trai tương ứng cũng tăng

Trang 11

Hơn nữa, ông còn nhận thấy rằng chiều cao trung bình của

các cháu trai của nhóm có cha cao nhỏ hơn chiều cao của cha và

chiều cao trung bình của các cháu trai của nhóm có cha thấp

lớn hơn chiều cao của cha

Trong công trình nghiên cứu của mình, Galton dùng cụm từ

“regression to mediocrity”, quy về trung bình, để chỉ xu hướng

này mà sau này người ta gọi là luật Galton Từ đó, vấn đề hồi

quy được nhiều người quan tâm và hoàn thiện, đồng thời hầu

hết các ứng dụng của phân tích hồi quy đã có nội dung rộng

hơn nhiều

1 Phân tích hồi quy

Phân tích hồi quy nghiên cứu mối liên hệ phụ thuộc của một

biến, gọi là biến phụ thuộc hay biến được giải thích, theo một

hay nhiều biến khác, gọi là các biến độc lập hay biến giải

thích.

Chẳng hạn, trong nghiên cứu của Galton, biến “chiều cao

con” là biến phụ thuộc, biến “chiều cao cha” là biến độc lập và

phân tích hồi quy của Galton nhằm nghiên cứu mối liên hệ

giữa hai biến này

Ta có thể đưa ra rất nhiều ví dụ về sự phụ thuộc của mộtbiến vào một hay nhiều biến khác Kỹ thuật phân tích hồi quygiúp ta nghiên cứu mối quan hệ như vậy giữa các biến Tathường ký hiệu

Y chỉ biến phụ thuộc hay biến được giải thích,

i

X chỉ biến độc lập hay biến giải thích thứ i

Phân tích hồi quy giải quyết các vấn đề sau :

• Ước lượng và dự đoán giá trị trung bình của biến phụthuộc với giá trị đã cho của biến độc lập

• Kiểm định giả thiết về bản chất sự phụ thuộc.

Chú ý rằng trong mô hình hồi quy, biến độc lập là biếnkhông ngẫu nhiên, nó có giá trị xác định, còn biến phụ thuộc làbiến ngẫu nhiên có phân phối xác suất, nghĩa là ứng với mỗigiá trị của biến độc lập, biến phụ thuộc có thể lấy nhiều giá trịkhác nhau nhưng các giá trị này tuân theo một luật phân phốixác suất xác định, thường là phân phối chuẩn

Chẳng hạn, trong phân tích hồi quy hai biến, ta xét

Y là biến phụ thuộc,

X là biến độc lập,biến độc lập X lấy các giá trị xác định X , 1 X , , 2 X và ứngn

với mỗi giá trị của X của X, với i 1,2, ,ni = , ta có m(i) giá trịtương ứng của Y, Y , i,1 Y , , i,2 Yi,m(i) trình bày trong bảng 1.

Như vậy, ứng với một giá trị X của X, ta có m(1) số liệu tương1

ứng của Y, ứng với giá trị X của X, ta có m(2) số liệu tương2

ứng của Y, , ứng với giá trị X của X, ta có m(n) số liệun

tương ứng của Y, và do đó ta có cả thảym(1) m(2) m(n) k+ + + = bộ số liệu (X , Y j j)

X

1

Y

Trang 12

thiệu trong chương mở đầu, ta có biến độc lập X chỉ lượng thu

nhập khả dụng của một hộ gia đình và biến phụ thuộc Y chỉ

lượng chi tiêu cho tiêu dùng hộ gia đình đó

X lấy các giá trị xác định là 80, 100, 120, 140, 160, 180, 200,

220, 240 và 260 và

Ứng với X 80= , Y lấy các giá trị là 55, 60, 65, 70 và 75,

Ứng với X 100= , Y lấy các giá trị là 65, 70, 74, 80, 85 và

88,

Ứng với X 120= , Y lấy các giá trị là 79, 84, 90, 94 và 98,

Ứng với X 140= , Y lấy các giá trị là 80, 93, 95, 103, 108 và

Ứng với X 260= , Y lấy các giá trị là 150, 152, 175, 178,

2 Mô hình hồi quy.

2.1 Hàm hồi quy tổng thể.

Giả sử ta có các bộ số liệu (X , Yi i, j) cho tổng thể, với

i 1, 2, , n= , j 1, 2, , m(i)= Ứng với mỗi giá trị của X, X X= i,với i 1, 2, , n= , ta có thể có nhiều giá trị của Y tương ứng nênquan hệ của Y theo X không là quan hệ “hàm số” Tuy nhiên,ứng với mỗi giá trị của X, X X= i, ta có duy nhất giá trị trung

bình E Y X X( = i) , nên quan hệ này trở thành quan hệ hàm số

Trang 13

và hàm số này được gọi là hàm hồi quy tổng thể, PRF

(Population Regression Functions) mà trong trường hợp này, ta

còn gọi là hàm hồi quy đơn (hồi quy hai biến), do nó chỉ có một

biến độc lập Trường hợp có nhiều hơn một biến độc lập, ta gọi

là hàm hồi quy bội.

Trước hết, giả sử PRF là hàm tuyến tính

E Y X X= = β + β Xmà ta còn viết là

E Y X = β + β X,trong đó β1 và β2 là các tham số chưa biết nhưng cố định, được

gọi là các hệ số hồi quy; β1 gọi là hệ số tự do hay hệ số chặn,

2

β gọi là hệ số góc (nó cho biết tỷ lệ thay đổi của Y đối với X)

Tính tuyến tính ở đây đúng đối với cả tham số cũng như đối

với các biến Điều này không đúng trong nhiều trường hợp

khác, chẳng hạn hàm ( ) 2

E Y X = β + β X tuyến tính đối vớitham số nhưng không tuyến tính (phi tuyến) đối với biến

Ngược lại, hàm E Y X( ) = β + β1 2X tuyến tính đối với biến

nhưng phi tuyến đối với tham số

Chú ý rằng trong phân tích hồi quy tuyến tính, hàm hồi quy

tổng thể được hiểu là tuyến tính đối với tham số nhưng không

nhất thiết tuyến tính theo các biến

Ngoài ra, do Y là biến số ngẫu nhiên, nên ứng với quan sát

thứ i trong tổng thể, X X= i, giá trị Y Y= i tương ứng sai khác

với giá trị trung bình β + β1 2 iX một đại lượng sai số ngẫu

nhiên, ký hiệu εi Do đó, ta còn viết

trong đó ε là một đại lượng ngẫu nhiên và (2.1.2) được gọi là

hàm hồi quy tổng thể ngẫu nhiên Thông thường, đại lượng

ngẫu nhiên ε được ngầm hiểu và khi đó, hàm hồi quy tổng thể(ngẫu nhiên) được viết tắt là

Y = β + β X.

2.2 Hàm hồi quy mẫu.

Cũng như vấn đề về mẫu và tổng thể trong lý thuyết thốngkê, chúng ta hoặc không có tổng thể, hoặc có nhưng không thểnghiên cứu được toàn bộ tổng thể Do đó, ta chỉ có thể ướclượng hàm hồi quy tổng thể với những thông tin từ các mẫungẫu nhiên lấy ra từ tổng thể

Hàm hồi quy xây dựng trên cơ sở của một mẫu ngẫu nhiên

được gọi là hàm hồi quy mẫu, SRF (Sample Regression Function), hay hồi quy mẫu.

Rõ ràng là với nhiều mẫu khác nhau, ta có nhiều SRF khácnhau Do đó, vấn đề đặt ra là cần ước lượng PRF bằng SRF tốtnhất theo nghĩa là SRF này có các tính chất : tuyến tính,không chệch, có độ lệch chuẩn nhỏ nhất

Cụ thể, với hàm hồi quy tổng thể tuyến tính, hàm hồi quymẫu có dạng

Y = β + β X,trong đó µY là ước lượng điểm của E Y X , $( ) βˆ1 là ước lượngđiểm của $β1 và $βˆ2 là ước lượng điểm của β2.

3 Phương pháp bình phương nhỏ nhất.

Phương pháp bình phương nhỏ nhất, OLS (Ordinary LeastSquare), do nhà toán học Đức Carl Fredrich Gauss đưa ra Vớiphương pháp này, kèm theo một vài giả thiết, các ước lượng thuđược có một số tính chất đặc biệt mà nhờ đó nó trở thànhphương pháp hồi quy mạnh và phổ biến nhất

3.1 Nội dung phương pháp OLS.

Trang 14

Giả sử Y= β + β1 2X là PRF cần tìm Ta tìm cách ước lượng

nó bằng cách xây dựng SRF dạng

Y = β + β Xtừ một mẫu gồm n quan sát (X , Y , với i 1,2, ,ni i) =

Khi đó, ứng với mỗi i, sai biệt giữa giá trị chính xác, Y , vài

giá trị ước lượng, µˆi $ˆ1 $ˆ2 i

mà ta gọi là các phần dư.

Phương pháp OLS nhằm xác định các tham số $ $( 1 2)

ˆ ˆ,

β β saocho tổng bình phương các phần dư, Σni 1 i= e2, là nhỏ nhất Chú ý

rằng tổng bình phương các phần dư này là hàm theo hai biến

trong đó X , Y là các trung bình của X, Y

Các giá trị $βˆ1 và $βˆ2 nhận được bằng các công thức trên

được gọi là các ước lượng bình phương nhỏ nhất của β1 và β2.Chú ý rằng công thức (3.1.1) có thể viết lại là (xem phầnphụ lục)

Trang 15

trong đó σX,Y, rX,Y lần lượt là hiệp phương sai, hệ số tương

quan của X, Y và S , X S lần lượt là độ lệch chuẩn (không hiệuY

chỉnh) của X, Y

Ví dụ 1 Bảng sau cho số liệu về lãi suất ngân hàng (Y) và tỷ

lệ lạm phát (X) trong năm 1988 ở 9 nước

Giả sử rằng sự phụ thuộc E Y X là tuyến tính Ước lượng( )

hàm hồi quy mẫu

Giải Dùng máy tính (xem phần phụ lục), ta được một số đại

một đơn vị thì Y thay đổi 1.249407 đơn vị Nói khác đi, khi tỷ

lệ lạm phát tăng/giảm 1% thì lãi suất ngân hàng tăng/giảm

1.249407%.

Chú ý tính đúng đắn của các kết quả nhận được khi so sánh

với các công thức (3.1.1-3.1.3) Từ

=

3.2 Các giả thiết của mô hình.

Để có thể dùng các công cụ của thống kê toán nhằm đánhgiá chất lượng của mô hình hồi quy tuyến tính, ta cần các giảthiết sau trên biến số X và đại lượng sai số ngẫu nhiên ε,

Giả thiết 1 Biến giải thích X là biến phi ngẫu nhiên, nghĩa

là các giá trị của nó được hoàn toàn xác định Giả thiết nàyđương nhiên được thỏa trong mô hình hồi quy tuyến tính

Giả thiết 2 Kỳ vọng của sai số ngẫu nhiên ε bằng 0, nghĩalà E( )ε =i E(ε X X= i) =0 Giả thiết này có nghĩa là các yếu tốkhông xuất hiện trong mô hình, được đại diện bởi đại lượngngẫu nhiên ε, không ảnh hưởng một cách có hệ thống đến giátrị trung bình của Y

Giả thiết 3 Phương sai của sai số không đổi (phương sai

thuần nhất), nghĩa là ( ) ( ) 2

Var ε = Var ε = σ , với mọi i, j Giảthiết này có nghĩa là các giá trị cụ thể của Y tương ứng vớicùng một giá trị của X đều được phân bố xung quanh giá trịtrung bình của nó với cùng một mức độ phân tán như nhau

Giả thiết 4 Không có tương quan giữa các sai số, nghĩa là

i j

cov( , ) 0ε ε = , với mọi i, j Giả thiết này có nghĩa là sai số ở sốliệu quan sát này không ảnh hưởng gì tới sai số ở số liệu quansát khác

Trang 16

Giả thiết 5 Sai số và biến giải thích không có tương quan,

nghĩa là cov( , X) 0ε = Giả thiết này là cần thiết vì nó cho phép

tách bạch ảnh hưởng của X và của các yếu tố không xuất hiện

trong mô hình đến các giá trị của Y Giả thiết này đương nhiên

được thỏa do X là phi ngẫu nhiên

3.3 Tính chất của các ước lượng bình phương nhỏ nhất.

Với các giả thiết cho trong 3.2, ta có

3.3.1 Định lý Gauss – Markov Với các giả thiết 1-5 của mô

hình hồi quy tuyến tính, các ước lượng cho bởi phương pháp

OLS là các ước lượng tuyến tính, không chệch và có phương sai

nhỏ nhất trong lớp các ước lượng tuyến tính không chệch

Phần chứng minh được trình bày trong phần phụ lục

3.3.2 Tính chất các hệ số hồi quy

Các hệ số hồi quy có các tính chất sau :

i) $βˆ1 và $βˆ2 được xác định một cách duy nhất ứng với mỗi

mẫu gồm n cặp quan sát (X , Y Ứng với các mẫu khác nhau,i i)

chúng có giá trị khác nhau

ii) $βˆ1 và $βˆ2 là các ước lượng điểm của β1 và β2 và là các

đại lượng ngẫu nhiên với phương sai cho bởi

$

( )

n 2 i

2

i 1

2 i

i 1

i 1

ˆvar

Trang 17

ˆvar 0.0005066243954 2.975456987

0.001507439097

=

3.3.3 Tính chất cho hàm hồi quy mẫu

Hàm hồi quy mẫu Yˆ = β + β$ˆ1 $ˆ2X có các tính chất i) SRF đi qua trung bình mẫu (X, Y , nghĩa là ) Y = β + β$ˆ1 $ˆ2X.ii) Giá trị trung bình của µY bằng với giá trị trung bình quansát Y, nghĩa là µˆY Y=

iii) Giá trị trung bình của phần dư e bằng 0, nghĩa là

n 1

i 1 i n

e = ∑ = e =0.iv) Phần dư e và µY không tương quan, nghĩa làµ

Trang 18

4 Hệ số xác định mô hình.

Gọi TSS (Total Sum of Squares) là tổng bình phương các sai

số giữa giá trị quan sát Y với giá trị trung bình của chúng,i

ESS (Explained Sum of Squares) là tổng bình phương các sai

lệch giữa giá trị của Y tính theo hàm hồi quy mẫu với giá trị

RSS (Residual Sum of Squares) là tổng bình phương các sai

lệch giữa giá trị quan sát của Y và các giá trị nhận được từ

hàm hồi quy mẫu,

TSS đo độ chính xác của số liệu thống kê,

ESS đo độ chính xác của hàm hồi quy so với trung bình, và

RSS đo độ chính xác của hàm hồi quy mẫu so với hàm hồi

quy tổng thể

Nhận xét rằng

TSS ESS RSS= + Nếu các số liệu quan sát của Y đều nằm trên SRF thì

RSS 0= và ESS RSS=

Nếu hàm hồi quy mẫu phù hợp tốt với các số liệu quan sát

thì ESS sẽ lớn so với RSS

Ngược lại, nếu hàm hồi quy mẫu kém phù hợp với các số liệuquan sát thì RSS sẽ lớn so với ESS

Các nhận xét này được minh họa bởi hình sau

để đo mức độ phù hợp của hàm hồi quy

Ta có 0 R≤ 2 ≤1 và 2 ( )2

X,Y

R = r , với rX,Y là hệ số tương

quan giữa X và Y Do đó, Khi R2 =1, ta được đường hồi quy “hoàn hảo”, mọi sai lệch của

Y (so với trung bình) đều giải thích được bởi mô hình hồi quy.Khi R2 = 0, X và Y không có quan hệ tuyến tính

Trang 19

Các tham số liên quan đến hệ số xác định mô hình còn có

thể tính bằng các công thức sau :

R = r , với rX,Y là hệ số tương quan giữa X và Y Ngoài

ra, đẳng thức (3.3.6) còn được viết lại thành (xem phụ lục)

ˆESS n S 9 1.249406687 14.80933973

(so sánh với rX,Y2 = 0.9966371682 = 0.993285644)

Bây giờ, trong ứng dụng, người ta nói rằng biến X giải thích

được trên 99% sự thay đổi của biến Y Nói khác đi, sự thay đổi của tỷ lệ lạm phát giải thích được trên 99% sự thay đổi của lãi suất ngân hàng

Nhìn chung các kết quả tính toán trên khá phức tạp khi sốliệu quan sát lớn hay trong các mô hình khác Trên thực tế,người ta thường dùng các phần mềm kinh tế lượng để hỗ trợcho việc tính toán Chẳng hạn, với phần mềm Eview (xemphần phụ lục), ta được các kết quả cho trong bảng sau

Hình 3 : Bảng kết quả hồi quyGiải thích các kết quả trong bảng

Dependent Variable : Biến phụ thuộc là Y Method : Phương pháp ước lượng là phương pháp OLS Date – Time : Ngày giờ thực hiện

Trang 20

Sample : Số liệu mẫu 1 – 9

Included observations : Cở mẫu là 9

Cột Variable : Các biến giải thích có trong mô hình (trong đó

C là biến số tự do)

Cột Coefficient : Giá trị các hệ số hồi quy

với bậc tự do (n – 2))

Cột Prob : Giá trị p – value của thống kê t tương ứng

P( T >4.024432) 0.0050≈ và P( T >32.17985) 0.0000≈

R – Squared : Hệ số R2 =0.993286

Adjusted R – Squared : Hệ số R điều chỉnh 2

S.E of regression : Giá trị ước lượng cho σ : $ 1.724951σ =

Sum squared resid : Tổng bình phương các phần dư ( RSS )

Log likelihood : Tiêu chuẩn ước lượng hợp lý

Durbin – Watson stat : Thống kê Durbin – Watson

Mean dependent var : Giá trị trung bình của biến phụ thuộc

S.D dependent var : Độ lệch chuẩn của biến phụ thuộc

- Akaike info criterion : Tiêu chuẩn Akaike

- Schwarz info criterion : Tiêu chuẩn Schwarz

- F – Statistic : Giá trị của thống kê F 1035.543=

- Prob( F – Statistic) : Giá trị p-value của thống kê F

tương ứngP(F 1035.543) 0.0000> ≈ Với F là biến ngẫu nhiên có phân

phối Fisher có bậc tự do (k 1, n k)− −

5 Phân phối xác suất của các ước lượng.

Như trình bầy trong phần 2.2 về hàm hồi quy mẫu, ứng vớimỗi một mẫu khác nhau, ta nhận được một hàm hồi quy mẫuvới các hệ số hồi quy khác nhau Ví dụ, ta coi như số liệu trongphần 1 về sự tương quan giữa biến X chỉ lượng thu nhập khảdụng của một hộ gia đình và biến phụ thuộc Y chỉ lượng chitiêu cho tiêu dùng hộ gia đình đó như là số liệu của tổng thểcần xác định Từ số liệu tổng thể này, ta lấy ba mẫu khácnhau:

Mẫu 2 :

Trang 21

và hàm hồi quy cho mẫu 3 : µY 20,12 0,58Xˆ = +

Đồ thị ba hàm hồi quy này cho trong hình sau :

Hình 4Hơn nữa, mục đích của phân tích hồi quy không chỉ là suyđoán về các hệ số hồi quy tổng thể β1, β2 cũng như hàm hồiquy tổng thể (PRF) bằng các hệ số hồi quy mẫu cũng như hàmhồi quy mẫu (SRF) mà còn phải kiểm tra bản chất sự biếnthiên của các hệ số hồi quy mẫu Ngoài ra, người ta còn cầnthiết phải khai thác các thông tin nhận được từ hàm hồi quymẫu, chẳng hạn như thực hiện các dự báo hay kiểm định cácgiả thuyết về mô hình đặt ra Để làm được các điều này, cầnthiết phải biết các phân phối xác suất của $βˆ1 và $βˆ2 Các phânphối xác suất này phụ thuộc vào phân phối xác suất của các εi

và ta cần thêm giả thiết sau

Trang 22

ii) $ $

1

2ˆ 1 1

Với thông tin trên các phân phối xác suất liên quan đến các

hệ số hồi quy nêu trên, ta có thể tìm các khoảng tin cậy cũng

như tiến hành kiểm định các giả thiết liên quan đến các hệ số

hồi quy

5.1 Khoảng tin cậy cho β2.

Xuất phát từ thống kê

$

2

2 2

$

$

2 2

tin cậy cho β2.

5.2 Khoảng tin cậy cho β1.

Tương tự, từ thống kê

$

$

1 1

ta suy ra khoảng tin cậy cho β1 với độ tin cậy γ cho trước.

5.3 Khoảng tin cậy cho σ2.

Từ thống kê

2 2 2

ˆvar β =0.001507439097.Từ đó suy ra

nên với độ tin cậy γ =0.9, tra bảng phân phối Student với

n 9 2 7= − = độ tự do, ta được giá trị C 1.895= và suy rakhoảng tin cậy cho β1 và β2 lần lượt là

Trang 23

với độ tin cậy γ =0.9, tra bảng phân phối chi-bình phương với

n 9 2 7= − = độ tự do, ta được khoảng tin cậy cho χ2 là

Ngoài ra, cũng từ các thống kê (5.1), (5.2) và (5.3), ta có thể

kiểm định một số giả thiết liên quan đến các hệ số hồi quy

5.4 So sánh β2 với β2∗ cho trước.

Ta có bài toán kiểm định

β nằm trong khoảng tin cậy của β2 với độ tin cậy γ = − α1 , ta

chấp nhận H Ngược lại, ta bác bỏ H, chấp nhận H

Đặc biệt, với β =2∗ 0, giả thiết H có nghĩa là “biến độc lập X

không ảnh hưởng gì tới biến phụ thuộc Y” Khi đó, thống kê

5.5 So sánh β1 với β1∗ cho trước.

Ta có bài toán kiểm định

5.6 So sánh σ2 với σ20 cho trước.

Ta có bài toán kiểm định

σ nằm trong khoảng tin cậy của σ2 với độ tin cậy γ = − α1 ,

ta chấp nhận H Ngược lại, ta bác bỏ H, chấp nhận H

6 Kiểm định sự phù hợp của hàm hồi quy Phân tích hồi quy và phân tích phương sai.

Trong phần này, ta khảo sát việc phân tích hồi quy theoquan điểm của phân tích phương sai Việc phân tích này cung

Trang 24

cấp cho ta một phương pháp hữu ích khác trong việc giải quyết

vấn đề phán đoán thống kê

Xuất phát từ tính chất

TSS ESS RSS= + và R2 ESS

S

2 1

nghĩa là kiểm định giả thiết cho rằng biến độc lập X không

ảnh hưởng gì đến biến phụ thuộc Y

Chú ý rằng khi đó, nghĩa là khi (H) đúng, giá trị F còn cóthể được tính bằng công thức

Ngoài phương pháp kiểm định các hệ số hồi quy bằngkhoảng tin cậy, ta còn có phương pháp kiểm định bằng giá trị

p – value được thực hiện như sau :

i

Tse

β − β

=βBước 2 : Tính p value P( T− = >T )0 , trong đó T St(n 2): −Bước 3 : So sánh giá trị p – value với mức ý nghĩa α chotrước, nếu

p value− < α : Bác bỏ giả thuyết H.

Tương tự cho bài toán kiểm định sự phù hợp của mô hình,với giá trị

Trang 25

Thường thì gía trị p–value được tính bằng phần mềm Eview.

Chẳng hạn như trong ví dụ 1, ta có p–value

P( T 32.17985) 0.0000 0.05

= > ≈ < nên ta bác bỏ giả thuyết H

7 Ứng dụng phân tích hồi quy vào dự báo.

Ta có thể dùng hàm hồi quy mẫu để dự báo giá trị của biến

phụ thuộc Y tương ứng với một giá trị của biến độc lập X Có

hai loại dự báo

Dự báo trung bình có điều kiện của Y ứng với X X= 0.

Dự báo giá trị cá biệt của Y ứng với X X= 0.

nhỏ nhất của E Y X X( = 0) Tuy nhiên, µY vẫn sai khác so vớiˆ0

giá trị thực của nó Để có khoảng tin cậy cho E Y X X( = 0) , ta

chú ý rằng µY có phân phối chuẩn với trung bình ˆ0 β + β1 2 0X và

7.2 Dự báo giá trị riêng biệt Y 0

Nếu muốn dự báo giá trị riêng biệt Y khi 0 X X= 0, ta chú ý

Ta có $β + βˆ1 $ˆ2X0 =2.741695 1.2494067 5 8.9887285+ × ≈ ,

Trang 26

9 9 14.809339730.359937933

se Y =0.599948275

Do đó với α =0.1, tra bảng phân phối Student với độ tự do

n 9 2 7= − = , ta được C 1.895= Từ đó, suy ra khoảng ước lượng

cho mức lãi suất trung bình

2.975456987 1

9 9 14.809339733.33539492

8 Ví dụ tổng hợp

Ví dụ 2 Số liệu về năng suất (Y, đơn vị tạ/ha) và mức phân

bón (X, đơn vị tạ/ha) cho một loại cây trồng tính trên một ha

trong 10 năm từ 1988 đến 1997 cho trong bảng sau

b) Giải thích ý nghĩa kinh tế của các hệ số nhận được

c) Tính độ lệch tiêu chuẩn của các $βˆ.d) Với mức ý nghĩa 5%, hãy cho biết mức phân bón có ảnhhưởng đến năng suất loại cây này không ?

e) Tìm khoảng tin cậy 95% cho các hệ số hồi quy

f) Tính R và giải thích ý nghĩa kết quả nhận được.2g) Với mức phân bón là 20 tạ/ha, hãy dự báo giá trị trungbình và giá trị cá biệt của năng suất với độ tin cậy 95%

Giải a) Trước hết, ta có đồ thị sau

Hình 5Đồ thị trên mô tả quan hệ giữa “năng suất” Y và “phân bón”

X và ta thấy có khả năng quan hệ giữa phân bón và sản lượnglà có dạng tuyến tính

Trang 27

Để ước lượng hàm hồi quy tổng thể E Y X( ) = β + β1 2X, ta

xét hàm hồi quy mẫu, µYˆ = β + β$ˆ1 $ˆ2X, trong đó các hệ số $βˆ1 và

Ta nhận được hàm hồi quy mẫu µY 27.125 1.66Xˆ = +

b) Ý nghĩa của các hệ số hồi quy.

Về lý thuyết, khi tăng lượng phân bón thì năng suất cây

trồng sẽ tăng Hệ số $β =ˆ2 1.66 0> cho thấy kết quả trên phù

hợp với lý thuyết Số 1.66 cho biết nếu tăng thêm 1 tạ phân

bón trên 1 ha, năng suất trung bình sẽ tăng 1.66 tạ (Hệ số

$

1

ˆ

27.125

β = cho thể diễn tả rằng khi không bón phân ( X 0= )

thì năng suất trung bình của loại cây trên là 27.125 tạ/ha)

c) Độ lệch chuẩn của các hệ số hồi quy.

Phương sai của các hệ số hồi quy cho bởi công thức

nS

σ

Trong các công thức trên, giá trị σ2 chưa biết được thay

bằng ước lượng không chệch của nó là

e) Khoảng tin cậy cho các hệ số hồi quy.

Để tìm khoảng tin cậy cho các hệ số hồi quy β1 và β2, tadùng các thống kê

Trang 28

$

1 1

Với độ tin cậy γ =95% 0.95= , bảng phân phối Student với

10 2 8− = độ tự do cho C 2.306= , ta được

và do đó, khoảng ước lượng cho β2 là [1.43;1.89 ]

Ta có thể giải thích rằng : Nếu tăng thêm 1 tạ phân bón

trên 1 ha, năng suất trung bình sẽ tăng ít nhất 1.43 tạ và

nhiều nhất 1.89 tạ trên 1 ha, với độ tin cậy γ =95% 0.95=

(Khi không bón phân ( X 0= ) thì năng suất trung bình ít nhất

là 272.86 tạ và nhiều nhất là 31.39 tạ/ha)

f) Hệ số xác định mô hình R 2

Từ công thức

X,Y

R =rvà với số liệu rX,Y = =r 0.985418302, ta được

R =0.985418302 =0.971049229

Ta nói sự biến thiên của lượng phân bón giải thích được xấp

xỉ 97% sự biến thiên của năng suất

g) Dự báo giá trị trung bình và giá trị cá biệt khi mức phân

bón là X0 =20 tạ/ha.

Để dự báo giá trị trung bình E Y X X( = 0) = β + β1 2 0X , ta

dùng thống kê

( )ˆ0

se Y = 0.902972209 0.950248498 0.95= ≈ .Mặt khác, X 18= ; X n 7.589466384σ =

E Y X 20= = Y ± ×C se Y =60.32 2.306 0.95± ×

và ta nhận được ước lượng khoảng cho E Y X 20( = ) là

[58.129; 62.511 ]Để dự báo giá trị cá biệt Y khi 0 X X= 0, ta dùng thống kê

µµ

2 2

10 10 7.589466384

5.913194794 16.545578126

Trang 29

và ta nhận được ước lượng khoảng cho Y là 0 [54.42; 66.22 ]

Ví dụ 3 Bảng sau cho số liệu về Giá bán (Y đơn vị : ngàn

USD / ft ) và diện tích nhà ở (X đơn vị 2 ft ).2

Diện tích Giá bán Diện tích Giá bán

Hình 7Khi đó ta có thể trả lời các câu hỏi sau :

- Mô hình hồi quy : µY 52.35091 0.13875X= +

- Độ lệch chuẩn của các hệ số hồi quy

- Hệ số xác định mô hình R2 =0.820522

Ví dụ 4 Bảng sau cho số liệu về thu nhập (X đơn vị nghìn

USD / tháng) và chi tiêu cho việc chăm sóc sức khoẻ (Y đơn vịnghìn USD / tháng ) của 51 cá nhân ở Mỹ

Trang 30

b) Tính độ lệch tiêu chuẩn của các $β.

c) Với mức ý nghĩa 5%, hãy cho biết thu nhập có ảnh hưởng

đến chi tiêu cho sức khoẻ cá nhân không ?

d) Tính R và giải thích ý nghĩa kết quả nhận được.2

e) Với mức với mức thu nhập X 100= nghìn USD, hãy dự

báo giá trị trung bình và giá trị cá biệt của chi tiêu cho sức

khoẻ cá nhân, với độ tin cậy 95%

Giải Ta có đồ thị phân tán số liệu

Hình 8

Đồ thị trên mô tả quan hệ giữa “Chi tiêu cho chăm sóc sứckhoẻ” Y và “Thu nhập cá nhân” X và ta thấy có khả năngquan hệ giữa phân bón và sản lượng là có dạng tuyến tính

Ta có bảng kết quả hồi quy sau

Hình 9Dựa vào bảng kết quả hồi quy ta có thể trả lời các câu hỏi sau :

- Mô hình hồi quy

Trang 31

Ta có, P( t >49.27179) 0.0000 0.05= < ta bác bỏ H, chấp

nhận H Nghĩa là thu nhập có ảnh hưởng đến chi tiêu cho sức

khoẻ

Ta có R2 =0.980216 và P( F >2427.709) 0.0000 0.05= <

Nghĩa là mô hình hồi quy trên giải thích được xấp xĩ 98.02% bộ

số liệu quan sát

Với mức thu nhập X0 =100 nghìn USD ta có,

với 51 2 49− = độ tự do, ta được C 1.96= và ta suy ra,

Khoảng ước lượng cho E Y X 100( = ) là : [10.3885;18.2949 ]

Khoảng ước lượng cho giá trị cá biệt Y là :0

[9.300606;19.38282]

Chương 2

MÔ HÌNH HỒI QUY BỘI

Trong thực tế, một đại lượng thay đổi thường chịu sự tác

động của nhiều hơn một đại lượng Chẳng hạn nhu cầu Y của

một loại hàng hóa thường lệ thuộc vào nhiều yếu tố như thu

nhập người tiêu dùng, giá của hàng hóa đó, giá của hàng hóa

thay thế Do đó, ta cần tổng quát hóa mô hình hồi quy hai

biến trình bầy trong chương 1 cho trường hợp có nhiều hơn hai

biến, mà ta gọi là hồi quy bội.

Trước hết, ta xét trường hợp đơn giản nhất của mô hình hồiquy bội : mô hình hồi quy ba biến Mô hình này khảo sát mộtbiến phụ thuộc Y theo hai biến độc lập X và 2 X Sau đó, mô3

hình này được mở rộng cho trường hợp tổng quát k biến trongđó biến Y phụ thuộc theo các biến X , 2 X , , 3 X k

Nhắc lại rằng ta chỉ xét trường hợp mô hình tuyến tính theotham số và không nhất thiết phải là tuyến tính theo các biến

1 Mô hình hồi quy tuyến tính ba biến.

1.1 Hàm hồi quy tổng thể.

Hàm hồi quy tổng thể (PRF) cho mô hình hồi quy tuyến tính

3 biến có dạng

E Y X , X = β + β X + β X ,trong đó, giá trị của PRF là kỳ vọng có điều kiện của biến Yvới giá trị đã cho của các biến X và 2 X , với Y là biến phụ3

thuộc, X và 2 X là các biến độc lập, 3 β1 là hệ số tự do, β2 và

3

β là các hệ số hồi quy riêng theo các biến.

Với tổng thể gồm N bộ giá trị (X ; X ; Y , i 1,2, , N2,i 3,i i) = ,trong đó Y sai khác với kỳ vọng có điều kiện một đại lượngi

sai số ngẫu nhiên, ký hiệu εi, nghĩa là

Y =E Y X =X , X = X + ε = β + β X + β X + ε .

1.2 Các giả thiết của mô hình.

Giả thiết 1 Giá trị trung bình các sai số bằng 0,

Trang 32

Giả thiết 3 Không có hiện tượng tự tương quan giữa các sai

số εi, nghĩa là cov(ε ε =i j, ) 0, với mọi i≠ j.

Giả thiết 4 Không có hiện tượng cộng tuyến giữa X và 2 X ,3

nghĩa là không có quan hệ tuyến tính giữa các biến giải thích

Giả thiết 5 Các sai số εi đều có phân phối chuẩn,

i N 0;

ε : σ , i∀

1.3 Ước lượng tham số.

Để ước lượng tham số của mô hình

E Y X , X = β + β X + β X ,

người ta dùng một mẫu gồm n bộ giá trị (X ; X ; Y ,2,i 3,i i)

i 1, 2, , n= , để thành lập hàm hồi quy mẫu, SRF, dạng

β là ước lượng điểm của βj, với j 1, 2, 3= .

Khi đó, giá trị ước lượng thứ i của SRF sai khác so với giá trị

tương ứng của PRF một đại lượng mà ta gọi là phần dư, ký hiệu ei

Y = β + β X + β X +e ,nghĩa là

e = Y −Y = Y − β − β X − β X , i 1, 2, , n= .

Phương pháp bình phương nhỏ nhất nhằm xác định các giá

trị βˆ1, βˆ2 và βˆ3 sao cho tổng bình phương các phần dư

là nhỏ nhất

Do tổng bình phương các phần dư này là hàm theo ba biến

Trang 33

Thế (4) vào (2), (3) và với yi = Yi −Y, x2,i = X2,i −X2,

i 2 2,i 3 3,i 3,i 3

1.4 Phương sai của hệ số hồi quy.

Phương sai và độ lệch chuẩn của ˆ1

β , βˆ2 và βˆ3 được tính bởi

2,i 3,i

i 1

n 2 n 22,i 3,i

i 1 i 1

x x 2

dùng

Trang 34

Các tính chất cho hồi quy bội khá giống như cho trường hợp

hồi quy hai biến Cụ thể, ta có

1 Đường hồi quy bội đi qua điểm (Y, X , X 2 3)

ˆ

var β sẽ lớn và do đó, rất khó ước lượng β2 và β3.

7 Công thức của ( )$2

ˆvar β , hay ( )$3

ˆvar β , cho thấy nó tỷ lệ

thuận với σ2, r và tỷ lệ nghịch với 2,3 n 22,i

i 1

x

=

đó, nếu X biến thiên càng lớn thì j,i ( )$ˆj

var β càng nhỏ và khiđó, βj càng được ước lượng chính xác.

8 $βˆ2 và $βˆ3 là các ước lượng tuyến tính không chệch và cóphương sai nhỏ nhất trong lớp các ước lượng tuyến tính khôngchệch của β2 và β3.

Chú ý rằng với các giả thiết đã nêu thì

1.6 Hệ số xác định hồi quy bội.

Trong mô hình hồi quy hai biến, R đo độ thích hợp của2hàm hồi quy Nó cho ta hình ảnh về tỷ lệ của toàn bộ sự biếnđổi của biến phụ thuộc Y do biến giải thích X gây ra Trong môhình hồi quy bội, tỷ lệ của toàn bộ sự khác biệt của biến Y dotất cả các biến giải thích X , 2 X gây ra, gọi là hệ số xác định3

hồi quy bội, R , xác định bởi2

n 2 i

n 2 i

i 1

eESS

Trang 35

Ta có 0 R≤ 2 ≤1 Khi R2 =1, ta nói mô hình hồi quy giải

thích 100% sự thay đổi của Y Nếu R2 =0 thì mô hình không giải

thích sự thay đổi nào của Y Ngoài ra ta còn có một tính chất

quan trọng của R là nó là hàm không giảm theo số biến giải2

thích có trong mô hình Dễ thấy rằng ∑ni 1 i= y2 = ∑ni 1= (Yi −Y)2 độc

lập với số biến nhưng ∑ni 1 i= e2 là hàm giảm theo số biến này Do

đó, nếu tăng số biến giải thích của mô hình thì R cũng tăng Vì2

vậy, khi so sánh hai mô hình hồi quy có cùng biến phụ thuộc

nhưng có số biến độc lập khác nhau, ta cần phải cẩn thận trong

việc lựa chọn mô hình với R cao nhất.2

Để so sánh hai số hạng R , ta cần phải tính đến số lượng biến2

độc lập có trong mô hình Có thể thực hiện điều này dễ dàng nếu

chúng ta xem xét một hệ số xác định thay thế khác như sau :

n 2 i

n 2 i

trong đó k là số các tham số trong mô hình bao gồm cả hệ số

tự do ( trong mô hình hồi quy ba biến thì k 3= ) R được gọi2

là R có hiệu chỉnh Thuật ngữ hiệu chỉnh có nghĩa là hiệu2

chỉnh theo bậc tự do tương ứng với các tổng bình phương trong

công thức định nghĩa của R Số bậc tự do của 2

n 2 i

i 1

e

=

∑ là (n k− )và số bậc tự do của

n 2 i

ii) Mặc dù R luôn luôn dương nhưng 2 R có thể âm Nếu2

2

R âm thì khi áp dụng, ta coi giá trị của nó là 0

Trên thực tế, người ta thường dùng R hơn cho dù rằng chưa2có một chứng minh chặt chẽ nào cho thấy tính ưu việt hơn hẳncủa nó so với R 2

Người ta dùng hệ số xác định hồi quy bội đã hiệu chỉnh đểquyết định có nên đưa thêm biến giải thích mới vào mô hìnhhay không ? Có thể chứng minh được rằng việc đưa thêm biếngiải thích là cần thiết chừng nào giá trị của R còn tăng lên2và hệ số hồi quy của biến được đưa thêm vào mô hình khác 0 làcó ý nghĩa

Để biết được hệ số hồi quy của biến mới đưa thêm vào hàmhồi quy khác 0 có ý nghĩa hay không, ta cần kiểm định giảthuyết

k k

1.7 Khoảng tin cậy của các hệ số hồi quy.

Với các giả thiết về εi đã nêu thì

j j

ˆ

β : β σ , với j 1, 2, 3=

Trang 36

Do σ2 chưa biết, nên ta dùng độ lệch chuẩn của các $ˆj

Từ đó, với độ tin cậy γ cho trước, ta tìm được khoảng tin cậy

cho T và suy ra khoảng tin cậy cho βj.

1.8 Kiểm định giả thiết về các hệ số hồi quy.

Xuất phát từ thống kê

$

$

j j

với β0j cho trước

1.9 Kiểm định giả thiết đồng thời

Xét giả thiết đồng thời

H :β = β =0,nghĩa là giả thiết rằng các hệ số hồi quy β2 và β3 đồng thời

bằng 0 Điều này có nghĩa là cả hai biến giải thích đều không

có ảnh hưởng gì đến biến phụ thuộc Y Giả thiết này tương

đương với giả thiết

2

H : R =0.Nói khác đi, các giả thiết thống kê này tương đương với giả

thiết về sự phụ thuộc tuyến tính của Y vào hai biến X và 2 X 3

Giả thiết này được kiểm định dựa vào thống kê

2 2

trong đó n là số quan sát của mẫu

1.10 Ví dụ minh họa.

Ví dụ 1 Số liệu về doanh thu (Y), chi phí cho quảng cáo (X2

), tiền lương của nhân viên tiếp thị (X ) của 12 công nhân (đơn3

vị triệu đồng) cho bởi bảng sau

Trang 38

Hình 1 : Bảng kết quả hồi quy 3 biếnGiải thích kết quả của bảng hồi quy

- Dependent Variable : Biến phụ thuộc là Y

- Method : Phương pháp ước lượng là phương pháp OLS

- Date – Time : Ngày giờ thực hiện

- Sample : Số liệu mẫu 1 – 12

- Included observations : Số quan sát là 12

- Cột Variable : Các biến giải thích có trong mô hình (trong

đó C là biến số tự do)

- Cột Coefficient : Giá trị các hệ số hồi quy

- R – Squared : Hệ số R2 =0.975657

- Adjusted R – Squared : Hệ số R điều chỉnh 2

- S.E of regression : Giá trị ước lượng cho σ : $ 4.003151σ =

- Sum squared resid : Tổng bình phương các phần dư ( RSS )

- Log likelihood : Tiêu chuẩn ước lượng hợp lý

- Durbin – Watson stat : Giá trị thống kê d của Durbin –

Watson

- Mean dependent var : Giá trị trung bình của biến phụ thuộc

- S.D dependent var : Độ lệch chuẩn của biến phụ thuộc

- Akaike info criterion : Tiêu chuẩn Akaike

- Schwarz info criterion : Tiêu chuẩn Schwarz

- F – Statistic : Giá trị của thống kê F 1035.543=

- Prob( F–Statistic) : Giá trị p-value của thống kê F tương ứng

P(F 180.3545) 0.0000> ≈ Với F là biến ngẫu nhiên có phânphối Fisher có bậc tự do (k 1, n k)− −

Trang 39

2 Mô hình hồi quy tuyến tính k biến.

2.1 Hàm hồi quy tổng thể

Xét hàm hồi quy tổng thể k biến dạng

E Y X , X , , X = β + β X + β X + + β X ,

trong đó Y là biến phụ thuộc, X , với j 2,3, ,kj = , là các biến

độc lập, β1 là hệ số tự do, βj, với j 2, 3, , k= , là các hệ số hồi

quy riêng

Điều này có nghĩa là tổng thể bao gồm N bộ giá trị

(Y , X , X , , Xi 2,i 3,i k,i) , với i 1, 2, , N= , sao cho

Y = β + β X + β X + + β X + ε ,

trong đó εi là sai số của Y so với kỳ vọng có điều kiệni

( 2 2,i 3 3,i k k,i)

E Y X =X , X =X , , X =X ,

Y = β + β X + β X + + β X + ε,với ε là sai số của Y.

Bây giờ, từ mẫu quan sát, (Y , X , X , , Xi 2,i 3,i k,i) , với

i 1, 2, , n= , lấy từ tổng thể, ta có

với e là phần dư của số hạng thứ j, j 1,2, ,nj = .

Dưới dạng ma trận, với

1 2

n

YYY

1 2

1 2

n

eee

được hoàn toàn xác định

iv) Không có hiện tượng cộng tuyến giữa các biến giải thích.Nói khác đi, hạng của ma trận X bằng k

i

e : N 0;σ , với mọi i

2.3 Ước lượng tham số.

Hàm hồi quy mẫu SRF có dạng

Y = β + β X + β X + + β X +e ,với i 1, 2, , n= , hay dưới dạng ma trận

Trang 40

ˆˆˆ

k

e

ˆe

β , , $βˆk được chọn sao cho tổng bình phương của các phần dư

(RSS) nhỏ nhất, nghĩa là

đạt giá trị nhỏ nhất

Ký hiệu X , T Y , $T βˆT và e là ma trận chuyển vị của X, Y,T

Ví dụ 2 Số liệu quan sát của một mẫu cho ở bảng sau Trong đó

Y: Lượng hàng bán được của một loại hàng hóa (tấn / tháng)

Ngày đăng: 01/11/2015, 10:17

HÌNH ẢNH LIÊN QUAN

Bảng 2 : Số liệu chéo - Kinh tế lượng tuấn anh new
Bảng 2 Số liệu chéo (Trang 4)
Hình hồi quy tuyến tính, các ước lượng cho bởi phương pháp - Kinh tế lượng tuấn anh new
Hình h ồi quy tuyến tính, các ước lượng cho bởi phương pháp (Trang 16)
Hình 3 : Bảng kết quả hồi quy Giải thích các kết quả trong bảng - Kinh tế lượng tuấn anh new
Hình 3 Bảng kết quả hồi quy Giải thích các kết quả trong bảng (Trang 19)
Hình 6 Sử dụng phần mềm Eview ta có bảng kết quả sau - Kinh tế lượng tuấn anh new
Hình 6 Sử dụng phần mềm Eview ta có bảng kết quả sau (Trang 29)
Ví dụ 4. Bảng sau cho số liệu về tiêu dùng cà phê và giá cà - Kinh tế lượng tuấn anh new
d ụ 4. Bảng sau cho số liệu về tiêu dùng cà phê và giá cà (Trang 49)
Hình 12 : Mô hình đa thức. - Kinh tế lượng tuấn anh new
Hình 12 Mô hình đa thức (Trang 53)
Đồ thị của phần dư theo  à Y  như sau - Kinh tế lượng tuấn anh new
th ị của phần dư theo à Y như sau (Trang 72)
Hình 7 Theo kinh nghiệm, nếu VIF của một biến vượt quá 10 (điều - Kinh tế lượng tuấn anh new
Hình 7 Theo kinh nghiệm, nếu VIF của một biến vượt quá 10 (điều (Trang 78)
Ví dụ 3. Bảng 3 dưới đây cho biết số liệu về năng suất (Y, - Kinh tế lượng tuấn anh new
d ụ 3. Bảng 3 dưới đây cho biết số liệu về năng suất (Y, (Trang 86)
Hình 17 Trong đó các ô như - Kinh tế lượng tuấn anh new
Hình 17 Trong đó các ô như (Trang 91)
Hình 18 Nhấp chuột, ta được đồ thị phân tán giữa các biến được sắp xếp dưới dạng một ma trận như sau - Kinh tế lượng tuấn anh new
Hình 18 Nhấp chuột, ta được đồ thị phân tán giữa các biến được sắp xếp dưới dạng một ma trận như sau (Trang 91)
Hình 34 Nhấp chuột, màn hình sau sẽ xuất hiện - Kinh tế lượng tuấn anh new
Hình 34 Nhấp chuột, màn hình sau sẽ xuất hiện (Trang 97)
Hình 46 Nhấp OK, ta được bảng các giá trị thống kê sau - Kinh tế lượng tuấn anh new
Hình 46 Nhấp OK, ta được bảng các giá trị thống kê sau (Trang 100)
Hình 55 Nhấp OK. Màn hình sẽ như sau - Kinh tế lượng tuấn anh new
Hình 55 Nhấp OK. Màn hình sẽ như sau (Trang 103)
Hình 66 Từ cửa sổ Equation, chọn View  →  Stability Tests  →  Chow Breakpoint Test… nhử hỡnh sau - Kinh tế lượng tuấn anh new
Hình 66 Từ cửa sổ Equation, chọn View → Stability Tests → Chow Breakpoint Test… nhử hỡnh sau (Trang 106)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w