Giả thuyết 1: mối quan hệ giữa Y và X là tuyến tính, biến các biến giải thích là phi ngẫu nhiên, tức là các giá trị của chúng là các số đã được xác định.. 3.3 Độ chính xác của ước lượng
Trang 1lượng hàm hồi quy mẫu, phương pháp thường dùng là phương pháp bình phương
nhỏ nhất OLS (Ordinary Least Square) Chúng ta sẽ trình bày phương pháp này cho
mô hình hai biến ở chương này, chương sau sẽ trình bày phương pháp OLS cho mô hình hồi quy bội
3.1 Phương pháp ước lượng bình phương bé nhất
Phương pháp bình phương nhỏ nhất do nhà toán học Đức Carl Friedrich Gauss đưa ra Sử dụng phương pháp này kèm theo một vài giả thuyết, các ước lượng thu được
có tính chất đặc biệt, nhờ đó mà phương pháp này là phương pháp mạnh nhất và được nhiều người sử dụng
3.1.1 Nội dung phương pháp bình phương nhỏ nhất
Giả sử ta có hàm hồi quy tổng thể và hàm hồi quy mẫu như sau:
Y i = β1 + β2 X i (PRF) (3.1)
Ý i = α1 + α2X i (3.2)
Trang 2Giả sử rằng chúng ta có n cặp quan sát của Y và X, cặp quan sát thứ I có giá trị
thể được, tức là phần dư
ei = Yi - Ýi = Yi - α1 + α2Xi (3.3) (3.3) càng nhỏ càng tốt Ta xem đồ thị sau:
Hình 2.6: đường hồi quy mẫu và sai số
các phần dư đạt cực tiểu Tức là:
∑ ei2 = ∑(Yi - Ýi )2
= ∑(Yi - α1 - α2Xi )2⇒ min
Trang 3Do Xi , Yi : i = 1,n đã biết, nên ∑ ei2 là hàm của α1 và α2:
Trang 4n ∑Y i X i - ∑X i ∑Y i
α2 = -
n ∑X i 2 - ( ∑X i ) 2 hoặc
Trang 63.1.2 Các tính chất ước lượng bình phương bé nhất
mẫu khác nhau chúng các giá trị khác nhau
Trang 7- Giá trị trung bình của các phần dư phần 0 Tức là ∑e i = 0
3.2 Các giả thuyết cơ bản của phương pháp ước lượng bình phương bé nhất
Trong phân tích hồi quy, mục đích của chúng ta là ước lượng, dự báo về tổng
nào Chất lượng của các ước lượng phụ thuộc vào :
- Dạng hàm của mô hình được chọn
- Phụ thuộc vào kích thước mẫu
Về dạng của mô hình chúng ta sẽ không đề cặp trong chương này Ơû đây chúng ta
được bằng phương pháp bình phương bé nhất là ước lượng tuyến tính, không chệch và
có phương sai nhỏ nhất
Giả thuyết 1: mối quan hệ giữa Y và X là tuyến tính, biến (các biến) giải thích là phi
ngẫu nhiên, tức là các giá trị của chúng là các số đã được xác định
Giả thuyết này không có gì mới, vì phân tích hồi quy được đề cặp là phân tích hồi quy có điều kiện, phụ thuộc vào các giá trị X đã cho
Giả thuyết 2: kỳ vọng của các yếu tố ngẫu nhiên Ui bằng không, tức là:
E(Ui / Xi) = 0
Trang 8Giả thuyết này có nghĩa là các yếu tố không có trong mô hình, Ui đại diện cho chúng, không ảnh hưởng hệ thống đến giá trị trung bình của Y Về mặt hình học ta cỏ thể mô tả bằng đồ thị sau đây:
Giả thuyết 3: phương sai bằng nhau (phương sai thuần nhất) hay là một hằng số cho
tất cả quan sát, tức là Var(Ui/ XI) = δ2
Giả thuyết 4: Không có sự tương quan giữa các Ui hay các biến số ngẫu nhiên Ui là độc lập về mặt thống kê
Cov(U i , U j ) = 0 Vi ≠ j
như có một giá trị U nào đó lớn hơn (nhỏ hơn) giá trị trung bình thì không có nghĩa giá trị khác cũng lớn hơn (nhỏ hơn) giá trị trung bình
Giả thuyết 5: số hạng sai số có phân phối chuẩn
Trang 93.3 Độ chính xác của ước lượng bình phương bé nhất
3.3.1 Không thiên lệch
Một tính chất mong đợi nhất gắn liền với một thông số hồi quy ước lượng là sao cho phân phối của hàm ước lượng có thông số như giá trị trung bình của nó Khi đó, nếu như chúng ta có thể phân tích dữ liệu mới, chúng ta sẽ chắc chắn đúng về trung bình Chúng ta sẽ nói rằng α là một hàm ước lượng không thiên lệch nếu trung bình hoặc giá trị kỳ vọng của α bằng với giá trị thực ; tức là E(α) = β Sự khác biệt giữa một hàm ước lượng thiên lệch và không thiên lệch có thể thấy trong hình 2.8 sau Để trình bày rõ, chúng ta định nghĩa độ thiên lệch gắn liền với một thông số ước lượng như sau:
độ thiên lệch = E( α) - β
α
Hình 2.8: hàm ước lượng thiên lệch Hàm ước lượng không thiên lệch
Trong khi tính không thiên lệch của một hàm ước lượng là một tính chất mong đợi, tính không thiên lệch không ám chỉ điều gì về độ phân tán của hàm ước lượng xung quanh thông số thực Nói chung, người ta muốn rằng hàm ước lượng là không thiên lệch và cũng có mật độ phân tán thật nhỏ xung quanh giá trị trung bình Điều này cho thấy rằng chúng ta nên định nghĩa một chỉ tiêu thứ nhì nhằm cho phép chọn lực giữa các hàm ước lượng không thiên lệch khác nhau
3.3.2 Tính hiệu quả
Trang 10Chúng ta nói rằng α là một ước lượng không thiên lệch hiệu quả nếu đối với
lượng nào khác Đôi khi việc xác định xem một hàm ước lượng có hiệu quả hay không
là khó khăn, cho nên cũng thật là tự nhiên khi người ta mô tả các hàm ước lượng theo tính hiệu quả tương đối của chúng Một hàm ước lượng hiệu quả hơn một hàm ước lượng khác nếu như có phương sai nhỏ hơn Hình 2.9 mô tả một hàm ước lượng có hiệu quả tương đối và một hàm ước lượng không có hiệu quả tương đối Tính hiệu quả
là một tính chất đáng mong đợi bởi vì tính hiệu quả ước lượng càng cao, thì các báo cáo thống kê mà người ta thực hiện càng chặt chẽ hơn về các thông số ước lượng Như vậy, trong trường hợp cực đoan của một hàm ước lượng (không thiên lệch) với phương sai bằng 0, chúng ta có thể nói một cách chắc chắn về giá trị bằng số của thông
số hồi quy thực
α
Hình 2.9: hàm ước lượng không hiệu quả Hàm ước lượng hiệu quả
3.3.3 Sai số bình phương trung bình cực tiểu
và phương sai của các hàm ước lượng Thí dụ, khi mục tiêu của mô hình là cực đại hoá
độ chính xác của dự đoán, thì một hàm ước lượng có phương sai rất thấp và hơi bị thiên lệch có thể sẽ đáng mong đợi hơn là một hàm ước lượng không thiên lệch nhưng
có phương sai cao Một chỉ tiêu hữu ích trong lĩng vực này, đó là mục tiêu cực tiểu hóa sai số bình phương trung bình, được định nghĩa là:
Trang 11Sai số bình phương trung bình (α) = E(α - β)2
3.4 Tương quan và hồi quy tuyến tính đơn
3.4 1 Phân tích tương quan tuyến tính
Phân tích tương quan tuyến tính là đo lường cường độ của mối quan hệ tuyến tính giữa hai biến ngẫu nhiên X và Y
Ví dụ: Ta xét mối quan hệ tuyến tính giữa lượng phân đạm với năng suất lúa,
giữa chi phí quảng cáo với doanh số bán hàng …
a Tích sai (Covariance)
Trang 12Giả sử có hai biến ngẫu nhiên X và Y không độc lập thống kê Ta muốn có một số đo nào đó về bản chất và sức mạnh của mối liên hệ giữa chúng Điều này hơi khó vì chúng
có thể liên hệ theo nhiều cách khác nhau Để đơn giản vấn đề, ta chỉ tập trung vào khả
năng liên hệ tuyến tính, chẳng hạn như : một giá trị cao của X (về mặt trung bình) có đi
đôi với giá trị cao của Y Thế thì một giá trị thấp của X có đi đôi với một giá trị thấp của Y hay không?
Để đánh giá điều này, ta xem tích: (X- x)(Y- y) và tìm kỳ vọng E[(X- x)(Y- y)] Nếu X lớn đi đôi với Y lớn và X nhỏ đi đôi với Y nhỏ thì ta hy vọng E[(X- x)(Y- y)]
là dương (và ngược lại) và mối liên hệ càng mạnh thì giá trị kỳ vọng càng lớn Khi E[(X- x)(Y- y)] = 0 tức là không có mối liên hệ tuyến tính giữa X và Y Ta được công thức:
Cov(X,Y) = E[(X- x)(Y- y)]
Tuy nhiên, giá trị của Cov(X,Y) phụ thuộc vào các đơn vị của X và Y Ta cần một số
đo độc lập với các đơn vị đó là hệ số tương quan (correlation coefficient)
b Hệ số tương quan tuyến tính
chiều hướng của mối liên hệ tuyến tính giửa X và Y
) )(
[(
.
) , ( )
,
(
2
2E Y y x
X E
y Y x X
E y
x
Y X Cov Y
X
Corr
μ μ
μ
μ σ
Trang 13+ p càng lớn, mối liên hệ tuyến tính giữa X và Y càng chặt chẽ
Trong thực tế ta thường không biết p mà phải ước lượng nó từ mẫu điều tra
Một cách tổng quát, gọi (x1,y1), (x2,y2) ,…,(xn,yn) là giá trị các quan sát của n cặp
y x n
i
n i
n
y yi x
xi
y yi x xi r
σ
σ
)
()(
))(
(
1
2 1
Gọi r là hệ số tương quan mẫu thì r là ước lượng của p, được xác định bằng công thức:
Ví dụ: có số liệu về thời gian quảng cáo trên truyền hình và lượng sản phẩm tiêu
thụ ở một công ty sản xuất đồ chơi trẻ em như sau:
Thời gian quảng cáo
0
=
y x
y x y x r
σ σ
Hệ số tương quan mẫu r = 0,63882 cho thấy mối liên hệ tương quan thuận ở mức trung bình giửa thời gian quảng cáo và số lượng sản phẩm tiêu thụ được
Stt X Y (X - x) (X - x) 2 (Y - y) (Y - y) 2 (X - x)(Y - y)
Trang 143 4 2 Kiểm định giảõ thuyết về mối liên hệ tương quan
Bên cạnh việc thể hiện mức độ chặt chẽ của mối liên hệ, ta cần phải xét xem thực sự
có mối liên hệ tương quan giữa X và Y hay không Ta dùng phương pháp kiểm định giả thuyết để kiểm chứng mối liên hệ tương quan này
+ Giả thuyết: Ho : p = 0 (không có mối liên hệ giửa X và Y )
H1 : p 0
2
)1
r t
+ Giá trị kiểm định:
+ Quy tắc quyết định: với mức ý nghiã , ta bác bỏ giả thuyết Ho nếu:
t > t n-2 , /2 (t n-2 có phân phối student với n -2 bậc tự do)
Trở lại ví dụ trên, SPSS cho ta kết quả sau:
Trang 15Pearson Correlation Sig (2-tailed) N
Ho với mọi mức ý nghiã > 2,5%
3.4 3 Hồi quy tuyến tính
Trong phần tương quan tuyến tính, ta chỉ đo lường mối liên hệ giữa hai biến ngẫu nhiên X và Y và giữa X và Y có mối quan hệ ngang cấp nhau Trong phần hồi quy cũng xét mối quan hệ tuyến tính giữa hai biến Tuy nhiên, trong hai biến này có một biến được xem là ảnh hưởng đến biến còn lại Biến gây ảnh hưởng gọi là biến độc lập, biến chịu sự ảnh hưởng của biến khác gọi là biến phụ thuộc
Ví dụ: Khi xét mối quan hệ giữa năng suất lúa với lượng phân đạm, thì năng suất lúa là biến phụ thuộc và lượng phân đạm là biến độc lập
Mục tiêu của phân tích hồi quy là dựa vào các thông tin thu thập được từ mẫu điều tra, kết hợp với các phương pháp toán học, ta xây dựng một mô hình tuyến tính nhằm thể hiện mối liên hệ giữa hai biến X và Y
Mô hình hồi quy tuyến tính của tổng thể và của mẫu
Giả sử ta có hai biến X và Y, trong đó Y là biến phụ thuộc tuyến tính vào X Tức là với một giá trị cụ thể xi nào đó của biến X thì biến Y có một giá trị cụ thể tương ứng là
yi = + xi +
Trong đó:
Trang 16: thể hiện giá trị ước lượng của biến Y khi giá trị của biến X bằng 0
khi biến X tăng một đơn vị
: là sai số ngẫu nhiên thể hiện sự ảnh hưởng của các yếu tố khác (không nghiên cứu) đến Y
Tuy nhiên, trong thực tế ta không xác định được các tham số , mà chỉ có thể ước lượng chúng từ các giá trị quan sát thu thập được từ mẫu điều tra
n i
xi b a yi i
y yi ei
2 2
1
Giả sử ta có (x1, y1) , (x2, y2) , … , (xn, yn) là n cặp giá trị quan sát từ mẫu điều tra Gọi a, b là các giá trị ước lượng của , Nói cách khác , ta mong muốn tìm một đường thẳng “thích hợp” cho các giá trị (xi,yi) Đường thẳng ỹ = a + b.x được xem là “thích hợp” nhất khi tổng bình phương các chênh lệch giữa giá trị thực
tế yi với giá trị ỹi là nhỏ nhấ, tức là:
Beta
Standardized Coefficients
Dependent Variable: LTT
a
Trang 17Dependent Variable: luong tieu thu
Kết xuất của Excel:
Từ bảng kết quả trên, ta được phương trình hồi quy: ỹ = 9,303 + 0,735.x
Hệ số b = 0,735 cho ta biết khi thời gian quảng cáo tăng lên 1 phút thì lượng tiêu thụ
tăng trung bình 735 sản phẩm
3.5 Hệ số xác định và kiểm định F trong phân tích hồi quy đơn
3.5.1 Hệ số xác định
Phần trên ta đã dùng biến độc lập X để giải thích sự biến thiên của biến phụ thuộc Y
thông qua việc xây dựng phương trình hồi quy tuyến tính Những câu hỏi có thể đặt ra
là: mô hình hồi quy tuyến tính được xây dựng đã thể hiện một cách tốt nhất mối liên hệ
giữa X và Y chư? Bao nhiêu % sự biến thiên của Y
Trang 18Ta có:
yi = a + b.xi +ei
ỹi = a + b.xi
Suy ra: yi = ỹi + ei (*)
Nghĩa là: ei là sự khác biệt giữa giá trị thực tế và giá trị dự đoán theo phương trình hồi quy tuyến tín Như vậy, ei thể hiện phần biến thiên của Y không thể giải thích từ mối liên hệ tuyến tính giữa Y và
Từ (*) , bằng các biến đổi toán học ta có:
i e y
i y y
2 1
) (
Hay:
SST = SSR + SSE
Đẳng thức này có ý nghĩa rất quan trọng Đại lượng SST (total sum of squares) thể hiện toàn bộ biến thiên của Y Nó được chia thành hai hai phần:
Y được giải thích bởi biến X
yếu tố khác không nghiên cứu
Ta có đồ thị minh họa sau như trên
và được xác định bằng công thức:
SST
SSE SST
SSR
và tất nhiên là càng có ý nghĩa trong việc giải thích sự biến thiên của Y
Trang 193.5.2 Kiểm định F: nhằm xem xét giả thuyết về sự tồn tại của mối liên hệ tuyến tính
giữa X và Y
Bảng ANOVA trong phân tích hồi quy tuyến tính đơn:
Biến thiên Tổng các chênh
lệch bình phương
Bậc
tự do
Trung bình các chênh lệch bình phương
Giá trị kiểm định F
lượng sản phẩm bán ra có thể được giải thích bởi mối liên hệ tuyến tính giữa thay đổi của lượng sản phẩm bán ra và thời gian quảng cáo
Giá trị Sig F = 0,025 cho ta kết luận rằng có mối liên hệ tuyến tính giữa sự thay đổi của lượng sản phẩm bán ra với sự thay đổi của thời gian quảng cáo
Trang 203.5.3 Kiểm định giả thuyết về mối liên hệ tuyến tính
Ta thấy rằng khi không có mối liên hệ tuyến tính giữa X và Y, hệ số B trong phương
trình hồi quy tuyến tính của tổng thể sẽ bằng không
Ta đặt giả thuyết: Ho: B = 0
H1: B 0
2 2
.x
n xì MSE
b S
b t
Trở lại ví dụ về lượng sản phẩm tiêu thụ và thời gian quảng cáo Kết xuất của SPSS
* Chú ý: trong bảng kết xuất ta thấy có dấu hiệu Sig = 0,025 có nghĩa là với mọi
mức ý nghĩa lớn hơn 2,5% ta có thể bác bỏ giả thuyết Ho trên
1 Xác định hệ số tương quan
2 Xây dựng mơ hình hồi quy hai biến
Trang 213 Ước lượng và kiểm định các thơng số với α = 5%
4 Anh/ chị nhận xét gì về kết quả trên
Bài 3.2 : Giả sử ta cĩ số liệu về thu nhập và chi tiêu như sau :
2 Xây dựng mơ hình hồi quy hai biến
3 Ước lượng và kiểm định các thơng số với α = 5%
4 Anh/ chị nhận xét gì về kết quả trên
Bài 3.3: Giả sử ta cĩ số liệu về giá cả và lượng cầu như sau :
Giá (1000 đ/kg) 157 128 90 60 50
Yêu cầu :
1 Xác định hệ số tương quan
2 Xây dựng mơ hình hồi quy hai biến
3 Ước lượng và kiểm định các thơng số với α = 5%
4 Anh/ chị nhận xét gì về kết quả trên
TÀI LIỆU THAM KHẢO:
1 Vũ Thiếu, Nguyễn Quang Dong, Nguyễn Khắc Minh, “Kinh tế lượng”, Nhà
xuất bản Khoa học và kỹ thuật, 2001
2 Nguyễn Quang Dong, “Bài tập kinh tế lượng với trợ giúp của phần mềm
EVIEWS”, Nhà xuất bản Khoa học và kỹ thuật, 2002
3 Hồng Ngọc Nhậm, “Kinh tế lượng”, Trường Đại học kinh tế TP HCM, 2005