Phương pháp hồi quy bình phương bé nhất thông thường Ordinary Least Squares - OLS • Phương pháp phổ biến nhất để tìm ra phương trình đường thẳng mô tả mối quan hệ giữa các biến với sai
Trang 1Chương 2 Tổng quan về mô hình hồi quy tuyến tính cổ điển
(classical linear regression model – CLRM)
1
Khoa Tài Chính - ĐHKT TPHCM
Trang 2Hồi quy (Regression)
• Phân tích hồi quy có thể được xem là một trong những công cụ phân tích quan trọng nhất đối với các nhà nghiên cứu định lượng
Phân tích hồi quy (regression analysis) là gì ?
• Phân tích hồi quy được thực hiện nhằm mô tả và đánh giá mối quan hệ giữa một biến số cho trước (thường được gọi biến phụ thuộc -dependent variable) và một hay nhiều biến số khác (thường được gọi là biến độc lập hay biến giải thích - independent variable(s))
2
Khoa Tài Chính - ĐHKT TPHCM
Trang 3Thuật ngữ và ký hiệu và trong phân tích hồi quy CLRM
• Ký hiệu biến phụ thuộc bằng y và một hay nhiều biến độc lập bằng x1, x2, ,
explained variable explanatory variable
• Lưu ý rằng trong chương khởi đầu này này chúng ta sẽ chỉ đề cập đến phân
tích hồi quy tuyến tính cho trường hợp đơn giản với duy nhất một biến độc lập x
3
Khoa Tài Chính - ĐHKT TPHCM
Trang 4Hồi quy (regression) so với mối tương quan (correlation)
• Nếu chúng ta nói rằng y và x có tương quan với nhau thì điều này có nghĩa
rằng chúng ta đang xem xét hai biến này theo cả 2 chiều đối xứng nhau (completely symmetrical way)
• Trong hồi quy, chúng ta xem xét biến phụ thuộc (dependent variable) (y) và các biến độc lập (independent variables) (x’s) hoàn toàn khác:
Biến số y được giả định là thay đổi ngẫu nhiên “random” hoặc
“stochastic” theo một cách nào đó, chẳng hạn có phân phối xác suất (probability distribution)
Tuy nhiên biến độc lập x lại được giả định không có những giá trị thay
đổi ngẫu nhiên “non-stochastic” hay “fixed” trong các mẫu quan sát khác nhau
4
Khoa Tài Chính - ĐHKT TPHCM
Trang 5Mô hình hồi quy tuyến tính giản đơn
• Để đơn giản hóa, mô hình hồi quy tuyến tính sẽ có số biến độc lập k=1 hay biến y phụ thuộc vào duy nhất một biến giải thích x
• Một vài ví dụ về loại mô hình hồi quy đơn biến:
– Đánh giá TTSL của chứng khoán (asset returns) thay đổi như thế nào theo mức độ rủi ro của thị trường
– Đo lường mối quan hệ dài hạn giữa giá cổ phiếu và cổ tức
– Xây dựng tỷ số phòng ngừa tối ưu (optimal hedge ratio)
5
Khoa Tài Chính - ĐHKT TPHCM
Trang 6Mô hình hồi quy đơn biến: một ví dụ
• Có dữ liệu sau về Excess Returns của một danh mục đầu tư XXX cùng với excess returns của thị trường (market index):
• Kiểm định giá trị Beta của danh mục này sẽ có dấu + theo như kỳ vọng của lý thuyết CAPM
Trang 7Minh họa mối quan hệ bằng đồ thị (Scatter Diagram)
Trang 8Tìm kiếm phương trình đường thẳng mô phỏng tốt nhất mối quan hệ giữa các dữ liệu quan sát (Line of Best Fit)
• Chúng ta có thể sử dụng phương trình tuyến tính cho một đường thẳng (for
a straight line) như sau:
y=a+bx
để có được đường thẳng có mô phỏng phù hợp nhất “best “fits”với dữ liệu quan sát
• Tuy nhiên, phương trình này (y=a+bx) chỉ thuần túy là lý thuyết
• Thực tiễn? Không Vì vậy cần phải bổ sung yếu tố sai số giữa ước lượng
và thực tế (a random disturbance term), u vào phương trình
y t = + x t + u t
where t = 1,2,3,4,5,
8
Khoa Tài Chính - ĐHKT TPHCM
Trang 9Tại sao chúng ta lại cần bổ sung sai số ước lượng
Trang 10Xác định hệ số hồi quy (Regression Coefficients)
• Chúng ta sẽ xác định các hệ số và như thế nào?
• Nguyên tắc cơ bản: lựa chọn hệ số và sao cho khoảng cách (theo
chiều dọc) từ các điểm quan sát thực tế đến đường thẳng ước lượng (fitted
Trang 11Phương pháp hồi quy bình phương bé nhất thông thường
(Ordinary Least Squares - OLS)
• Phương pháp phổ biến nhất để tìm ra phương trình đường thẳng mô tả mối
quan hệ giữa các biến với sai số ước lượng là nhỏ nhất (fit a line to the
data)
• Phương pháp này được biến đến như là phương pháp OLS (ordinary least squares)
• Chúng ta sẽ tính khoảng cách cho mỗi điểm quan sát và bình phương và
sau đó tối thiểu hóa tổng của các khoảng cách bình phương này (total sum
of the squares) và vì vậy phương pháp này còn có tên là bình phương bé
nhất (least squares)
• Các ký hiệu như sau:
y t ký hiệu điểm dữ liệu thực tế t
ký hiệu giá trị ước lượng y t (fitted value ) từ phương trình hồi quy
ký hiệu phần dư (residual), y t - là chênh lệch giữa giá trị thực
tế (actual) và giá trị ước lượng (fitted Value) t
yˆ t
yˆ t uˆ
11
Khoa Tài Chính - ĐHKT TPHCM
Trang 12Phương pháp OLS phát huy tác dụng trong việc xác
định hệ số hồi quy như thế nào?
• Min , hay minimise ( Residual Sum of Squares - RSS)
• Nhớ rằng là khác biệt (sai số) giữa điểm quan sát thực tế (actual point)
và đường hồi quy
• Vì vậy tối thiểu hóa tương đương tối thiểu hóa
đối với và $ $
2 5
2 4
2 3
2 2
Trang 13Ước lượng hệ số hồi quy (OLS Estimator)
• Phương trình ước lượng
• Gọi
• Để tối thiểu hóa L đối với và , ta lấy đạo hàm bậc nhất của L theo
(1)
(2)
ˆ ˆ
( 2
x
L
0)ˆˆ
(2
ˆ 0
) ˆ ˆ
t
t y y x y
L ( ˆ )2 ( ˆ ˆ )2
13
Khoa Tài Chính - ĐHKT TPHCM
Trang 14Ước lượng hệ số hồi quy (OLS Estimator), (cont’d)
• Vì vậy ta có thể viết lại như sau:
t
t
t t
t t
t
t
t t
t
x x
T x
y T y
x
x x
x x
y y
x
x x
y y
x
0 ˆ
ˆ
0 ˆ
ˆ
0 )
ˆ ˆ
(
2 2
ˆ
T T x y
14
Khoa Tài Chính - ĐHKT TPHCM
Trang 15Ước lượng hệ số hồi quy (OLS Estimator), (cont’d)
• Giải phương trình cho :
• Phương pháp xác định hệ số hồi quy tối ưu này được gọi là phương
pháp bình phương sai số bé nhất thông thường - OLS (Ordinary
x y
x T x
y x T y
xt
t t
ˆ ˆ
và
ˆ
2 2
Trang 17Mức độ chính xác của hệ số chặn (Intercept ) được ước lượng
• Cần thận trọng khi thông đạt kết quả của hệ số chặn được ước lượng, đặc biệt
nếu không có hoặc chỉ có ít quan sát gần trục tung y:
y
17
Khoa Tài Chính - ĐHKT TPHCM
Trang 18Một số thuật ngữ chuyên dụng khác :
1 Tổng Thể và Mẩu Quan Sát (The Population and the Sample)
• “Tổng Thể” (The population) là tập hợp tất cả các đối tượng đang được nghiên
cứu, ví dụ:
cứu Population of interest
Đánh giá hành vi của các nhà đầu tư Toàn bộ các nhà đầu tư trên TTCK
• Như vậy “mẫu nghiên cứu” (sample) sẽ chỉ bao gồm một số “nhà đầu tư”
được rút ra từ tổng thể để tiến hành phỏng vấn
• Mẫu nghiên cứu “ngẫu nhiên” (random sample) là mẫu tập hợp các quan sát
được rút ra từ tổng thể một cách ngẫu nhiên (xác suất được chọn là bằng
nhau)
18
Khoa Tài Chính - ĐHKT TPHCM
Trang 192 DGP và Hàm Phân Phối Tổng Thể (PRF)
• Hàm phân phối tổng thể (The population regression function - PRF) được sử
dụng để mô tả một mô hình mà có thể tái tạo các dữ liệu giống như quan sát thực tế
• Bao hàm trong mô hình là các mối quan hệ thực tế giữa các biến số, như bao
gồm các giá trị đúng (true value) của và
• Hàm phân phối tổng thể còn được biết như là DGP (data generation process)
• Hàm phân phối tổng thể - PRF có dạng:
t t
y
19
Khoa Tài Chính - ĐHKT TPHCM
Trang 202 DGP và Hàm Phân Phối Tổng Thể (PRF)
• Hàm phân phối mẫu quan sát (The sample regression function – SRF) bao
hàm các mối quan hệ ước lượng giữa các biến sử dụng mẫu dữ liệu quan sát được
• Hàm phân phối mẫu quan sát - SRF có dạng:
• Trên thực tế chúng ta sử dụng SRF để suy diễn các giá trị của PRF Do vậy sai số sẽ là:
• Và như vậy chúng ta cần phải biết được các giá trị tham số và đã được
ước lượng “tốt “ như thế nào
t
y ˆ ˆ ˆ
t t
t y y
uˆ ˆ
20
Khoa Tài Chính - ĐHKT TPHCM
Trang 213 Mô hình tuyến tính và mô hình phi tuyến
(Linear and Non-linear Models)
• Để có thể sử dụng được phương pháp OLS, chúng ta cần đảm bảo rằng mô
hình hồi quy là tuyến tính đối với các tham số ước lượng và (linear
in the parameters) nhưng mô hình không nhất thiết phải là tuyến tính đối
với các biến phụ thuộc và biến giải thích y and x (linear in the variables)
• Tuyến tính trong các tham số (Linear in the parameters) có nghĩa rằng các
tham số không được nhân, chia với nhau hay được bình phương hoặc lập phương v.v
• Một số mô hình phi tuyến nhưng thật ra không có thuộc tính “phi tuyến” vì
có thể được chuyển đổi sang dạng tuyến tính bằng cách thay thế (substitution) hay chuyển đổi (tranformation) các biến cho phù hợp
• Ví dụ xem xét mô hình hồi quy số mũ sau: (exponential regression model)
• Thực hiện chuyển đổi như sau: gọi y t =ln Y t và x t =ln X t
t t
y
t t
t
u t
21
Khoa Tài Chính - ĐHKT TPHCM
Trang 223 Mô hình tuyến tính và mô hình phi tuyến
(Linear and Non-linear Models)
• Mô hình trên còn được gọi là mô hình hồi quy số mũ (exponential regression model) vì các hệ số hồi quy có thể được diễn đạt như là “độ co dãn” (elasticities)
• Tương tự nếu từ lý thuyết ta rút ra được một mô hình mà y có mối quan hệ nghịch đảo với x:
khi đó mô hình vẫn là tuyến tính và có thể được ước lượng bởi OLS bằng cách thay thế
y 12 1
22
Khoa Tài Chính - ĐHKT TPHCM
Trang 234 “Estimator” hay “Estimate”?
• Estimators là những công thức được sử dụng để tính toán các hệ số hồi quy (formulae used to calculate the coefficients)
Ví dụ:
• Estimates là những giá trị bằng số thực tế (actual numerical values) của các
hệ số hồi quy (coeeficients)
x y
x T x
y x T y
xt
t t
ˆ ˆ
và
ˆ
2 2
Trang 24Những giả định nền tảng của mô hình hồi quy tuyến tính giản đơn – CLRM (Classical Linear Regression Model)
• Mô hình hồi quy tuyến tính mà chúng ta đang thảo luận được gọi là mô hình CLRM (the classical linear regression model)
• Trong mô hình này chúng ta sử dụng các dữ liệu quan sát x t, để hồi quy giá trị ước
lượng y t “mũ” Trong khi đó giá trị y t thực tế phụ thuộc vào sai số u t, do vậy
chúng ta cần đánh giá các thuộc tính của phần dư u t và những giá trị sai số này
đã được tạo ra như thế nào
• Những giả định quan trọng của phần dư u t (the unobservable error terms):
• Ký hiệu kỹ thuật Ý nghĩa kinh tế lượng
1 E(u t) = 0 Phần dư có giá trị kỳ vọng là zero
2 Var (u t) = 2 Phương sai của phần dư là xác định và không đổi
như nhau tất cả các các giá trị của x t
3 Cov (u i ,u j)=0 Các phần dư là độc lập với nhau
4 Cov (u t ,x t)=0 Không có mối quan hệ giữa phần dư và biến độc
lập x
• Giả định bổ sung:
5 u t ~N(0, 2 )Nguyễn Thị Hồng Nhâm - Khoa Tài Chínhc phần dư có phân phối chuẩn ĐHKT TPHCM 24
Trang 25Những giả định nền tảng của mô hình hồi quy tuyến tính giản đơn – CLRM (Classical Linear Regression Model) – tiếp theo
• Giả định thứ 4 có thể được diễn đạt với ý nghĩa mạnh hơn là các biến
độc lập x t không thay đổi ngẫu nhiên (non-stochastic) hay có thuộc tính không đổi trong các mẫu quan sát khác nhau (fixed in repeated samples)
• Giả định thứ 5 là cần thiết nếu chúng ta muốn dùng mô hình để kiểm
định các thông số của “tổng thể” bao gồm và từ các thông số ước lượng sử dụng mẫu quan sát và $ $
25
Khoa Tài Chính - ĐHKT TPHCM
Trang 26Các thuộc tính của hệ số ước lượng OLS (OLS Estimator)
• Định đề Gauss-Markov (Gauss-Markov theorem): Nếu các giả định từ A1
đến A4 là đúng, khi đó các hệ số ước lượng và từ phương pháp hồi quy OLS sẽ là các ước lượng không chệch tuyến tính tốt nhất - Best Linear
Unbiased Estimators (BLUE)
“Estimator” - Hệ số ước lượng sẽ là giá trị “đúng” (true value) của
“Linear” - là hệ số ước lượng tuyến tính (linear estimator)
“Unbiased” - Tính bình quân, giá trị thực tế của và ’s sẽ bằng với các giá trị “đúng (true values)
“Best” - Có nghĩa rằng các hệ số ước lượng (OLS estimator) có
phương sai nhỏ nhất so với tất cả các hệ số ước lượng có thể có được từ
Trang 27Consistency/Unbiasedness/Efficiency
• Tính nhất quán (Consistent)
Các hệ số ước lượng và là nhất quán khi và chỉ khi quá trình ước lượng hội
tụ về các giá trị “đúng” của những hệ số này (true values) khi kích thước của mẫu
quan sát tăng dần về vô cực Do vậy chúng ta cần giả định E(x t u t)=0 và
Var(u t)=2 < đề chứng minh điều này
Trang 28Consistency/Unbiasedness/Efficiency
• Không thiên lệch (unbiased)
Các ước lượng OLS và là không thiên lệch khi và chỉ khi:
E( )= và E( )=
Do vậy giá trị được ước lượng tính bình quân sẽ bằng với giá trị “đúng” (true values)
Để chứng minh điều này ta cần giả thiết E(u t)=0
“Không thiên lệch” (Unbiasedness) là một điều kiện mạnh hơn “sự nhất quán”
(consistency)
• Tính hiệu quả (Efficiency)
Ước lượng của giá trị “đúng” được gọi là có tính hiệu quả nếu:
(1) nó là ước lượng không chệch (unbiased) và
(2) có giá trị phương sai nhỏ nhất trong số các hệ số ước không chệch khác
=> Nếu một hệ số ước lượng là “hiệu quả”, thì chúng ta có thể nói rằng nó có giá trị rất gần với giá trị “đúng” của
Trang 29Sự chính xác của ước lượng (Precision) và sai số chuẩn
Với s là độ lệch chuẩn được ước lượng của sai số phần dư (estimated standard
deviation of the residuals)
T x
y x T y
2
2 2 2
2
2 2
1)
(
1)
ˆ(
,)
()
ˆ(
x T x
s x
x
s SE
x T x
T
x s
x x T
x s
SE
t t
t
t t
Trang 30Sự chính xác của ước lượng (Precision) và sai số chuẩn
2
2 2 2
2
2 2
1 )
(
1 )
ˆ (
, )
( )
ˆ (
x T x
s x
x
s SE
x T x
T
x s
x x
T
x s
SE
t t
t
t
t t
30
Khoa Tài Chính - ĐHKT TPHCM
Trang 31Ước lượng phương sai của phần dư (Variance of the
Disturbance Term)
• Phương sai của phần dư u t được tính toán như sau:
Var(u t ) = E[(u t )-E(u t)]2
hay
Var(u t ) = E(u t2)
• Do vậy chúng ta cần tính giá trị bình quân của :
• Không may mắn là công thức trên không khả thi khi u t là không quan sát
được Chúng ta có thể sử dụng giá trị ước lượng của u t, là
Nhưng lưu ý là S2 vẫn là hệ số ước lượng bị chệch (biased estimator ) của 2
t
uˆ
31
Khoa Tài Chính - ĐHKT TPHCM
Trang 32Ước lượng phương sai của phần dư (Variance of the
Disturbance Term) (cont’d)
• Do vậy hệ số ước lượng không chệch của sẽ được tính bằng công thức sau:
với là tổng bình phương của phần dư (residual sum of squares -
RSS) và T kích thước của mẫu quan sát (sample size)
Một vài lưu ý đối với Standard Error Estimators
1 Cả SE( ) and SE( ) đều tùy thuộc vào s2 (hay s) Nếu phương sai của s2
càng lớn thì khi đó mức độ phân tán của các phần dư quanh giá trị trung bình
của nó sẽ càng lớn và do đó các giá trị y sẽ càng bị phân tán quanh giá trị
trung bình của nó
2 Giá trị tổng bình phương (sum of the squares) của x và giá trị trung bình
của nó có ảnh hưởng trực tiếp đến cả công thức SE( ) and SE( )
Giá trị tổng bình phương (sum of squares) càng lớn, thì phương sai của hệ
số ước lượng (coefficient variances) càng bé
Trang 33Một vài lưu ý đối với Standard Error Estimators
Đồ thị minh họa điều gì sẽ xảy ra nếu nhỏ hoặc lớn:
Trang 34Một vài lưu ý đối với Standard Error Estimators
Mẫu quan sát, T, càng lớn thì phương sai của các hệ số ước lượng càng bé
T xuất hiện trong công thức tính SE( ) nhưng ảnh hưởng ngầm trong
công thức tính SE( ) bởi vì là ngầm được tính từ t = 1 đến
T
4 Trong khi đó giá trị chỉ ảnh hưởng đến SE của hệ số chặn SE( ) và
và không ảnh hưởng đến SE của hệ số độ dốc SE( )
vì đo lường khoảng cách từ điểm quan sát đến trục tung y
Trang 35Ví dụ: Tính toán các hệ số ước lượng (Parameters) và sai số
chuẩn của các hệ số ước lượng (Standard Errors)
• Có dữ liệu sau được tính từ phương trình hồi quy bao gồm biến phụ thuộc y, một biến độc lập x, và một hằng số, sử dụng 22 quan sát của :
3919654
,65.86,
5.416,
22,
y x
T y
x t
t t
Trang 36Ví dụ: Tính toán các thông số ước lượng (Parameters) và sai
số chuẩn của các thông số ước lượng này (Standard Errors)
3919654
1
*55.2)(
35
35
.41622
391965422
3919654
*55.2)(
)0079
0(
35.0)
35.3(
12.59
55
220
6.1302
Trang 37Giới thiệu về suy luận thống kê (Statistical Inference)
• Các nhà nghiên cứu rất cần suy luận về các giá trị có thể có của tổng thể từ các thông số ước lượng từ phương trình hồi quy
Ví dụ: giả định chúng ta có kết quả hồi quy CLRM như sau:
• là một ước lượng điểm (single point estimate) của thông số
“tổng thể” chưa biết (unknown population parameter) Do vậy vấn đề là mức độ tin cậy “reliable” của thông số ước lượng này như thế nào?
• Mức độ tin cậy của một điểm ước lượng (point) được đo lường bởi Standard Errors của hệ số ước lượng (coefficient’s standard error)
0 5091
)2561
0(
5091
0)38.14(
3.20
37
Khoa Tài Chính - ĐHKT TPHCM
Trang 38Kiểm định giả thuyết (Hypothesis Testing): các khái niệm
• Chúng ta có thể sử dụng thông tin về mẫu (sample) để suy luận về “tổng thể” (population)
• Chúng ta luôn có 2 giả thiết cùng đi với nhau: giả thiết 0 (the null hypothesis),
ký hiệu H0 và giả thiết thay thế (the alternative hypothesis ), ký hiệu H1
• Giả thiết 0 là giả thiết thống kê (statistical hypothesis) về biến cố mà chúng ta
cần kiểm định
• Giả thiết thay thế thể hiện phần biến cố còn lại nếu như giả thiết 0 bị loại
• Ví dụ, sử dụng lại ví dụ bên trên, chúng ta sẽ kiểm định giá trị “đúng” của là 0.5 Ký hiệu sẽ được sử dụng như sau:
Trang 39Kiểm định một bên (One-Sided Hypothesis Tests)
• Đôi khi chúng ta có một vài thông tin cho trước mà theo đó chúng ta có thể
kỳ vọng rằng > 0.5 thay vì < 0.5 trong trường hợp này chúng ta có thể
sử dụng kiểm định một bên (one-sided test) như sau:
H0 : = 0.5
H1 : > 0.5 Hoặc
H0 : = 0.5
H1 : < 0.5
• Có 02 cách để thực hiện kiểm định giả thiết:
(1) theo cách tiếp cận “mức ý nghĩa thống kê” (test of significance approach) hoặc
(2) theo cách tiếp cận “khoảng tin cậy” (the confidence interval approach)
39
Khoa Tài Chính - ĐHKT TPHCM
Trang 40Phân phối xác suất của các hệ số ước lượng từ phương
pháp bình phương bé nhất (The Probability Distribution of
the Least Squares Estimators)
• Chúng ta giả định rằng u t N(0,2)
• Bởi vì hệ số ước lượng từ phương pháp bình phương bé nhất là kết hợp
tuyến tính của các biến ngẫu nhiên ( the random variables), chẳng hạn:
• Do vậy các hệ số ước lượng này cũng có phân phối chuẩn nếu yt cũng có phân phối chuẩn:
• N(, Var())
N(, Var())
• Tuy nhiên điều gì sẽ xảy ra nếu phần dư không có sai số chuẩn? Các thông
số ước lượng vẫn có phân phối chuẩn nếu các giả định khác của mô hình