Đối với mục đích này, chúng ta xây dựng các mô hình kinh tế lượng và sử dụng một hoặc nhiều phương pháp để dự báo xu hướng tương lai.. [Diễn giải: Một điều kiện quan trọng đằng sau các m
Trang 1Chương 16
Dự báo kinh tế
(Gujarati: Econometrics by example, 2011)1
Người dịch và diễn giải: Phùng Thanh Bình
http://vnp.edu.vn/
C
Có nhiều lĩnh vực trong đó các dự báo kinh tế đã chứng tỏa sự hữu ích2:
1 Lập kế hoạch hoạt động và kiểm soát (ví dụ như quản trị tồn kho, lập kế hoạch sản xuất, quản lý lực lượng bán hàng, …)
2 Marketing (ví dụ phản ứng của doanh số theo các kế hoạch marketing khác nhau)
3 Kinh tế học (các biến kinh tế chủ yếu như GDP, thất nghiệp, tiêu dùng, đầu tư và lãi suất)
4 Quản lý tài sản tài chính (ví dụ suất sinh lợi của tài sản, tỷ giá hối đoái và giá cả hàng hóa)
5 Quản trị rủi ro tài chính (ví dụ sự dao động suất sinh lợi của tài sản)
6 Dự toán của doanh nghiệp và chính phủ (các dự báo doanh thu)
7 Nhân khẩu học (tỷ lệ sinh và tỷ lệ tử)
8 Quản trị khủng hoảng (xác suất không trả được nợ, phá giá tiền tệ, đảo chính quân sự, …)
Dựa trên các thông tin quá khứ và hiện tại, mục tiêu của dự báo là để cung cấp các giá trị ước lượng định lượng về khả năng chiều hướng tương lai của đối tượng quan tâm (ví
dụ chi tiêu cho tiêu dùng cá nhân) Đối với mục đích này, chúng ta xây dựng các mô hình kinh tế lượng và sử dụng một hoặc nhiều phương pháp để dự báo xu hướng tương lai [Diễn giải: Một điều kiện quan trọng đằng sau các mô hình dự báo là chúng ta ngầm giả định xu hướng vận động của dữ liệu trong quá khứ và hiện tại sẽ được duy trình trong giai đoạn dự báo ở tương lai Điều này đòi hỏi dữ liệu sử dụng trong các mô hình dự báo phải là các chuỗi dừng (nghĩa là, trung bình không đổi qua thời gian, phương sai không đổi qua thời gian, và hiệp phương sai chỉ phụ thuộc vào khoảng cách giữa hai thời điểm nhất định).]
Mặc dù có nhiều phương pháp dự báo, nhưng chúng ta sẽ xem xét ba phương pháp dự báo nổi trội trong chương này: (1) các mô hình hồi quy, (2) các mô hình ARIMA, được
1 Hiện nay đã có ấn bản mới (lần 2, năm 2015) Dữ liệu của phiên bản 2011:
https://www.macmillanihe.com/companion/Gujarati-Econometrics-By-Example/student-zone/
2 Xem Francis X Diebold, Elements of Forecasting, Thompson-South-Western Publishers, 4th edn, 2007
Trang 2phổ biến bởi hai nhà thống kê Box và Jenkinx và được biết với tên gọi là phương pháp luận Box-Jenkins3, và (3) các mô hình VAR, được đề xuất bởi Christopher Sims4
16.1 Dự báo với các mô hình hồi quy
Chúng ta đã dành một không gian đáng kể trong cuốn sách này này để bàn về các khía cạnh khác nhau của phân tích hồi quy, nhưng cho đến đây chúng ta nói rất ít về việc sử dụng các mô hình hồi quy cho các mục đích dự báo Đối với nhiều người sử dụng phân tích hồi quy trong doanh nghiệp và chính phủ, dự báo có thể là mục đích quan trọng nhất của việc ước lượng các mô hình hồi quy Chủ đề của dự báo trong kinh doanh và kinh tế thì rất rộng và nhiều cuốn sách chuyên khảo được viết về chủ đề này5 Chúng ta
sẽ chỉ thảo luận những khía cạnh nổi bật của dự báo bằng các mô hình hồi quy Để đơn giản, và để sử dụng đồ thị, trước hết chúng ta sẽ xem xét hồi quy hai biến sau đây:
Trong đó PCE là chi tiêu cho tiêu dùng cá nhân bình quân đầu người và PDI là thu nhập
khả dụng (sau thuế) cá nhân bình quân đầu người tính theo giá đôla năm 2005, và u là
hạng nhiễu Chúng ta sẽ gọi hồi quy này là hàm tiêu dùng Hệ số độ dốc trong hồi quy này thể hiện khuynh hướng tiêu dùng biên (MPC) – nghĩa là, chi tiêu cho tiêu dùng tăng thêm ứng với một đôla thu nhập tăng thêm Để ước lượng hồi quy này, chúng ta thu thập dữ liệu dạng gộp về các biến này của Mỹ giai đoạn 1960 – 2008 Xem Table 16.1 trên trang web đồng hành cùng quyển sách
Hình 16.1: PCE và PDI bình quân đầu người của Mỹ, giai đoạn 1960 – 2004
3 G.P Box and G.M Jenkins, Time Series Analysis: Forecasting and Control, Holden Day, San Francisco, 1976
4 Một phương pháp dự báo khác phổ biến vào những năm 1970 và 1980 là phương pháp các mô hình phương trình đồng thời Nhưng phương pháp này đã mất dần sự ưa thích bởi vì thành tích dự báo kém cỏi của nó từ những cấm vận dầu lửa của OPEC trong những năm 1970, mặc dù nó vẫn được sử dụng bởi nhiều cơ quan chính phủ và Cục dự trữ liên bang Một thảo luận về phương pháp này có thể xem trong Gujarati/Porter, các chương 18 – 20
5 Ví dụ, xem Diebold, op cit, Michael K Evans, Practical Business Forecasting, Blackwell Publishing, Oxford, UK,
2003, and Paul Newbold and Theodore Bos, Introductory Business and Economic Forecasting, 2dn edn,
South-South-Western Publishing Company, Cincinnati, Ohio, 1994
Trang 3[Diễn giải: Trong Stata, chúng ta thực hiện như sau: twoway (scatter pdi pce) if year < 2005]
Để ước lượng hàm tiêu dùng, trước hết chúng ta sử dụng các quan sát từ 1960 - 2004
và để dành bốn quan sát cuối, đây được gọi là mẫu để dành (holdover sample), để đánh
giá thành tích của mô hình ước lượng Trước hết chúng ta vẽ dữ liệu để có ý tưởng gì
đó về bản chất của mối quan hệ giữa hai biến (Hình 16.1) Hình này cho thấy rằng hầu như có một mối quan hệ tuyế tính giữa PCE và PDI Thự hiện mô hình hồi quy tuyến tính với dữ liệu này, chúng ta thu được kết quả trong Bảng 16.2
Bảng 16.2: Ước lượng hàm tiêu dùng, 1960 – 2004
Các kết quả này cho thấy rằng nếu PDI tăng thêm một đôla, thì chi tiêu cho tiêu dùng trung bình tăng khoảng 95 cent, nghĩa là, khuynh hướng tiêu dùng biên là 0.95 Dựa vào các tiêu chí thống kê chuẩn, mô hình ước lượng trông có vẽ tốt, mặc dù có bằng chứng mạnh về tự tương quan dương trong hạng nhiễu bởi vì giá trị Durbin – Watson rất thấp Chúng ta sẽ quay lại điểm này sau
Để cảnh giác khả năng hồi quy giả mạo, chúng ta kiểm định nghiệm đơn vị cho phần dư
từ phương trình (16.1) và thấy không có bằng chứng về nghiệm đơn vị, mặc dù từng chuỗi PCE và PDI là chuỗi không dừng [Diễn giải: Điều này chứng tỏ PCE và PDI đồng liên kết và phương trình (16.1) là hồi trình hồi quy đồng liên kết]
quietly reg pce pdi if year < 2005
predict uhat, resid
Trang 4Từ bảng này (16.2), bạn sẽ thấy hàm chi tiêu cho tiêu dùng trung bình ước lượng được viết như sau:
Chúng ta làm gì với hồi quy ‘lịch sử’ này? Chúng ta có thể sử dụng để dự báo các giá trị tương lai của chi tiêu cho tiêu dùng Giả sử bạn muốn biết E(PCE2005|PDI2005), nghĩa là giá trị chi tiêu cho tiêu dùng trung bình thực hoặc của tổng thể trong năm 2005 khi biết giá trị của thu nhập khả dụng ở năm 2005, giá trị này là 31.318 tỷ đôla (lưu ý rằng hồi quy mẫu của chúng ta dựa trên mẫu giai đoạn 1960 - 2004)
Trước khi chúng ta thực hiện công việc này, chúng ta cần biết một vài thuật ngữ chuyên biệt được sử dụng trong dự báo như: (1) dự báo điểm và dự báo khoảng, (2) dự báo tiền nghiệm và dự báo hậu nghiệm, và (3) dự báo có điểu kiện và dự báo không điều kiện Chúng ta sẽ thảo luận ngắn gọn các thuật ngữ này ngay dưới đây:
1 Các dự báo điểm và dự báo khoảng: Trong các dự báo điểm, chúng ta cung cấp một giá trị đơn lẻ cho mỗi giai đoạn dự báo, trong khi đó trong dự báo khoảng chúng ta thu được một khoảng sẽ chứa giá trị thực hiện được (realized value) với một xác suất nhất định Nói cách khác, dự báo khoảng cung cấp một biên độ về
sự không chắc chắn (margin of uncertainty) về dự báo điểm
Hình 16.2: Các loại dự báo
2 Dự báo hậu nghiệm và dự báo tiền nghiệm: Để hiểu sự khác biệt, xem Hình 16.26 Trong giai đoạn ước lượng, chúng ta có dữ liệu về tất cả các biến trong mô hình, trong giai đoạn dự báo hậu nghiệm (ex post forecast) chúng ta cũng biết các giá trị của biến phụ thuộc và các biến giải thích (đây là trong giai đoạn để dành, holdover period) Chúng ta có thể sử dụng các giá trị này để có ý tưởng gì đó về thành tích của mô hình ước lượng Trong dự báo tiền nghiệm (ex anti forecast), chúng ta ước lượng các giá trị của biến phụ thuộc ngoài giai đoạn ước lượng nhưng chúng ta có thể không biết các giá trị của các biến giải thích một cách chắc
6 Thảo luận sau đây dựa theo Robert S Pindyck and Daniel L Rubinfeld, Econometric Models and Economic
Forecasts, 3rd edn, McGraw-Hill, New York, 1991, Chapter 8
Trang 5chắn, trong trường hợp đó, chúng ta có thể phải ước lượng các giá trị này trước khi chúng ta có thể dự báo (cho biến phụ thuộc)
3 Các dự báo có điều kiện và dự báo không có điều kiện: Trong các dự báo có điều
kiện, chúng ta dự báo một biến quan tâm với điều kiện biến các giá trị được giả
định của các biến giải thích Nhớ lại rằng ngay từ khi chúng ta thực hiện phân tích hồi quy, có điều kiện theo các giá trị cho trước của các biến giải thích Loại
dự báo có điều kiện này cũng được biết với các tên gọi như phân tích kịch bản (scenario analysis) hoặc phân tích ngẫu nhiên (contingency analysis) Trong các
dự báo không có điều kiện, chúng ta biết các giá trị của các biến giải thích với sự chắc chắn thay vì lấy các giá trị tùy ý (arbitrary values) về chúng, như trong dự báo có điều kiện Dĩ nhiên, điều đó là hiếm; nó thực sự liên quan đến điều mà Diebold gọi là các vấn đề dự báo các biến bên vé phải (tức các biến giải thích)7 Đối với các mục đích hiện tại, chúng ta sẽ làm việc với các dự báo có điều kiện Với các vấn đề sơ bộ này, chúng ta hãy ước lượng giá trị dự báo điểm của chi tiêu cho tiêu dùng năm 2005, khi cho trước giá trị PDI bình quân đầu người năm 2005 là 31.318
tỷ đôla
Bây giờ, kết quả hồi quy cho thấy rằng dự đoán trung bình tốt nhất của Y2005 với giá trị
X cho trước là như sau:
Nghĩa là, giá trị dự đoán trung bình tốt nhất của chi tiêu cho tiêu dùng trong năm 2005
là 28.784 tỷ đôla, khi cho trước giá trị của PDI là 31,378 tỷ đôla Từ Table 16.1, chúng ta thấy rằng giá trị thực của PCE của năm 2005 là 29.771 tỷ đôla Vì thế giá trị thực lớn hơn giá trị ước lượng khoảng 987 tỷ đôla Chúng ta gọi đây là sai số dự báo (forecast error) Một cách tự nhiên, chúng ta không kỳ vọng dùng đường hồi quy ước lượng để dự báo các giá trị thực mà không có sai số
Vì con số PCE được cho trong phương trình (16.3) là một giá trị ước lượng, nên nó có sai số như chúng ta vừa mới lưu ý Vì vậy điều mà chúng ta cần là một giá trị ước lượng
của sai số dự báo mà chúng ta có thể tận dụng con số trong phương trình (16.3) như
một giá trị trung bình thực (true mean value) của chi tiêu cho tiêu dùng trong năm 2005 Bây giờ, chúng ta có thể được cho thấy rằng nếu hạng nhiễu trong phương trình (16.1)
có phân phối chuẩn, thì, cho Y = PCE và X = PDI, chúng ta có thể được cho thấy rằng giá trị ước lượng của Y ở năm 2005 (tức là 𝑌̂2005) theo phân phối chuẩn với trung bình bằng (B1 + B2X2005) và phương sai:
7 Giải pháp cho vấn đề này, xem Diebold, op cit, p 223
Trang 6Trong đó, 𝑋̅ là trung bình mẫu của các giá trị X trong giai đoạn mẫu của chúng ta (1960
- 2004), 2 là phương sai của hạng nhiễu u và n là cỡ mẫu
Vì chúng ta không quan sát được phương sai thực của u, nên chúng ta ước lượng nó từ mẫu như sau: 𝜎̂2 = ∑ 𝑒𝑡2/(𝑛 − 2) như thảo luận của chúng ta ở chương 1,
Sử dụng thông tin này, và với giá trị cho trước của X năm 2005, chúng ta có thể thiết lập một khoảng tin cậy 95% cho giá trị E(Y2005) thực như sau:
Trong đó 𝑠𝑒(𝑌̂2005) là sai số chuẩn thu được từ phương trình (16.4), và = 5% Lưu ý rằng khi thiết lập khoảng tin cậy này, chúng ta đang sử dụng phân phối t thay vì phân phối chuẩn bởi vì chúng ta đang ước lượng phương sai thực của hạng nhiễu Tất cả điều này là dựa theo lý thuyết hồi quy tuyến tính đã được thảo luận ở chương 1
Sử dụng phương trình (16.4), chúng ta có 𝑠𝑒(𝑌̂2005) Vì thế, khoảng tin cậy 95% của E(Y2005) là (28.552 tỷ đôla, 29.019 tỷ đôla), mặc dù một giá trị ước lượng đơn lẻ tốt nhất
là 28.784 tỷ đôla (Lưu ý: t/2 ~ 2.02, với df = 43)
Chúng ta sẽ tính khoảng tin cậy như thế cho mỗi E(Y|X) trong mẫu của chúng ta Nếu chúng ta nối các khoảng tin cậy như thế lại, chúng ta có được một dải tin cậy (confidence band) Việc tính toán chán ngắt này có thể tránh được nếu chúng ta sử dụng một phần mềm như Stata hoặc Eviews Sử dụng Eviews, chúng ta có dải tin cậy như thế cho ví dụ của chúng ta (Hình 16.3)
Hình 16.3: Dải tin cậy của PCE trung bình
Trang 7[Diễn giải: Để có Hình 16.3 trong Eviews, sau khi hồi quy chúng ta chọn Forecast và thực hiện như sau:]
Đường liền nét trong đồ thị này là đường (hoặc đường cong) hồi quy ước lượng và hai đường gãy nét cho biết dải tin cậy 95% của nó Nếu bạn nhìn công thức của phương sai của các giá trị trung bình ước lượng, bạn sẽ thấy rằng phương sai này tăng vì giá trị X tại
đó dự báo được tính di chuyển xa dần giá trị trung bình củ nó Nói cách khác, sai số dự báo sẽ tăng khi chúng ta di chuyển xa khỏi giá trị trung bình của biến giải thích Điều này cho biết rằng việc dự báo E(Y|X) cho các giá trị X lớn hơn nhiều giá trị trung bình của X
sẽ dẫn đến các sai số dự báo lớn đáng kể
Bảng thống kê kèm theo đồ thị cho chúng ta các thước đo về chất lượng của dự báo như căn bậc hai của sai số bình phương trung bình, sai số tuyệt đối trung bình, sai số tuyệt đối phần tram và hệ số bất cân bằng Theil, giá trị của hệ số này trong khoảng 0 và
1 – càng gần 0 thì mô hình càng tốt Các thước đo này được thảo luận một cách ngắn gọn ở Phụ lục cuối chương Các thước đo thành tích dự báo hữu ích nếu chúng ta so sánh hai hoặc nhiều phương pháp dự báo, như chúng ta sẽ thảo luận dưới đây
Chúng ta cũng có thể mở rộng phân tích cho các hồi quy bội, nhưng trong trường hợp
đó chúng ta cần phải sử dụng đại số ma trận để thể hiện các phương sai của dự báo Chúng ta để chủ đề này lại cho các tài liệu tham khảo
Trang 8Bảng 16.3: Hàm tiêu dùng với AR(1)
Trong các kết quả hồi quy được trình bày trong Bảng 16.2 chúng ta thấy rằng thống kê Durbin-Watson có ý nghĩa, điều này cho biết rằng hạng nhiễu có tương quan chuỗi dương bậc một [AR(1)] Có thể thấy rằng nếu chúng ta đưa vào tính tương quan chuỗi của hạng nhiễu, thì sai số dự báo có thể nhỏ hơn, nhưng chúng ta sẽ không đi sâu về mặt toán học của vấn đề này8 Tuy nhiên, Eviews có thể ước lượng mô hình (16.1) bằng cách cho phép tự tương quan trong hạng nhiễu Ví dụ, nếu chúng ta giả định hạng nhiễu theo cơ chế tự tương quan bậc một [AR(1)] như được thảo luận ở chương 6, tức ut =
ut-1 + t; - 1 1, trong đó là hệ số tự tương quan bậc một và là hạng nhiễu trắng, chúng ta có được kết quả như trong Bảng 16.3 [Diễn giải: Trong Stata, chúng ta sử dụng hồi quy bằng lệnh prais y x hoặc prais y x, corc]
So với mô hình trong Bảng 16.2, chúng ta thấy rằng khuynh hướng tiêu dùng biên có thay đổi chút đỉnh, nhưng sai số chuẩn thì cao hơn nhiều Từ bảng này, chúng ta cũng thấy rằng hệ số của tự tương quan bậc một là khoảng 0.819
Hình 16.4: Dải tin cậy 95% của PCE với AR(1)
8 Xem Robert S Pindyck and Daniel L Rubinfield, op cit, pp 190 – 2
9 Bạn đọc được khuyến khích thử các cơ chế tự tương quan bậc cao hơn, chẳng hạn AR(2), AR(3) để xem các kết quả trong Bảng 16.3 có thay đổi không
Trang 9Sử dụng các kết quả trong Bảng 16.3, chúng ta thu được dải tin cậy 95% cho đường hồi quy ước lượng – xem Hình 16.4 Nếu bạn so hình này với Hình 16.3, thì bạn sẽ thấy mô hình trong Bảng 16.3 hơi tốt hơn mô hình trong Bảng 16.2 bởi vì nó có tính đến tương quan chuỗi bậc một, điều này ủng hộ phát biểu trước đây rằng nếu chúng ta tính đến tương quan chuỗi thì khoảng (dải) dự báo sẽ hẹp hơn so với trường hợp không tính đến Điều này có thể được thấy bằng cách so sánh các thống kê về thành tích dự báo xuất hiện cùng với các đồ thị
[Diễn giải: Dự báo điểm và khoảng trong Stata]
gen pdi0 = pdi - 31318
use "D:\My Blog\Econometrics by example\Table16_1.dta", clear
tsset year
reg pce pdi if year < 2005
predict Y_hat
predict se, stdp
gen lower = Y_hat -2.02*se
gen upper = Y_hat +2.02*se
twoway (tsline Y_hat) (tsline lower) (tsline upper)
list lower Y_hat upper if year == 2005
Trang 1016.2 Phương pháp Box – Jenkins: Mô hình hóa ARIMA
Ý tưởng cơ bản đằng sau phương pháp Box-Jenkins về dự báo là để phân tích các thuộc tính xác suất hoặc ngẫu nhiên của bản thân các chuỗi thời gian kinh tế dưới triết lý rằng
“hãy để dữ liệu nói về chính nó” Không giống các mô hình hồi quy truyền thống, trong
đó biến phụ thuộc Yt được giải thích bở k biến giải thích X1, X2, …, Xk, các mô hình chuỗi thời gian theo phương pháp Box-Jenkins [diễn giải: thuộc nhóm các mô hình đơn chuỗi, univariate models] cho phép Yt được giải thích bởi chính các giá trị quá khứ hoặc biến trễ của chính Yt và giá trị hiện tại và các giá trị trễ của ut, ut là một hạng nhiễu không tương quan với trung bình bằng 0 và phương sai không đổi 2 – nghĩa là, một hạng nhiễu trắng [Diễn giải: Nghĩa là, Yt có thể theo cơ chế AR(p) hoặc MA(q) hoặc cả hai ARMA(p,q), tùy vào bản chất của chuỗi thời gian kinh tế Ví dụ, nếu Yt là giá chứng khoán [hoặc suất sinh lợi của giá chứng khoán đó, tính bằng rt = (Yt – Yt-1)/Yt-1], thì MA có thể được hiểu như các tin tức ‘news’ trong quá khứ và hiện tại ngoài bản thân giá chứng khoán (hoặc suất sinh lợi) có ảnh hưởng đến giá chứng khoán ở hiện tại, tức Yt hoặc rt Theo kinh nghiệm, thì các chuỗi thời gian về giá cả tài sản tài chính thường theo cơ chế
MA hơn là cơ chế AR vì trong các thị trường càng hiệu quả về mặt thông tin thì thông tin quá khứ của chuỗi Yt hầu như không còn giá trị nữa Chính vì thế các mô hình phân tích kỹ thuật cơ bản dựa vào việc khai thác các thông tin quá khứ của một chuỗi thời gian tài chính không còn đất diễn ở các thị trường phát triển Một lưu ý rất quan trọng
là cả AR và MA đều là các chuỗi dừng Cho nên, khi một chuỗi không dừng thì chúng ta không thể xác định nó sẽ phù hợp với cơ chế nào, và điều chúng ta cần làm trước tiên
là phải chuyển đổi từ chuỗi gốc ấy sang chuỗi dừng (thường là lấy sai phân bậc một)] Phương pháp Box-Jenkins có nhiều cách để dự báo một chuỗi thời gian, chúng ta sẽ thảo luận chúng một cách trình tự dưới đây Trước hết chúng ta sẽ thảo luận các cách tiếp cận khác nhau của phương pháp Box-Jenkins ở dạng tổng quát và sau đó sẽ xem xét một ví dụ cụ thể, đó là ví dụ về tỷ giá euro/đôla đã được chúng ta xem xét ở chương
13 của cuốn sách này
Phương pháp Box-Jenkins dựa trên giả định rằng chuỗi thời gian đang được xem xét là
chuỗi dừng Chúng ta đã thảo luận chủ đề về tính dừng ở chương 13 và chỉ ra tầm quan
trọng của việc nghiên cứu chuỗi thời gian dừng Chúng ta hãy thể hiện một chuỗi thời gian dừng, ký hiệu là Yt
Mô hình tự hồi quy (AR)
Xem xét mô hình sau đây:
Trong đó ut là hạng nhiễu trắng
Mô hình (16.6) được gọi là mô hình tự hồi quy bậc p, AR(p), vì nó liên quan đến việc hồi quy Y tại thời điểm t theo p giá trị trễ trong quá khứ của nó, giá trị p được xác định theo cách thực nghiệm bằng cách sử dụng các tiêu chí thông tin như AIC Nhớ lại rằng chúng
ta đã thảo luận tự hồi quy khi chúng ta bàn về chủ đề tự tương quan ở chương 6
Trang 11[Diễn giải: Ví dụ giá chứng khoán Y tại thời điểm t được giải thích bởi các giá của Y trong quá khứ và các tin tức ngoài bản thân giá chứng khoán này tại thời điểm t, tức là ut]
Mô hình trung bình di động (MA)
Chúng ta cũng có thể mô hình hóa Yt như sau:
Nghĩa là, chúng ta thể hiện Yt như trung bình có trọng số hoặc trung bình trượt của hạng nhiễu trắng ở hiện tại và các hạng nhiễu trắng quá khứ Mô hình (16.7) được biết với tên gọi là mô hình MA(q), giá trị q được xác định một cách thực nghiệm [cũng dựa vào các tiêu chí thông tin như AIC]
Hãy dừng lại để bước đi xa hơn …
Ở đây, tôi sẽ giải thích tại sao AR(p) và MA(q) là các chuỗi dừng và cách xác định độ trễ
p và q bằng giản đồ tự tương quan
Trước hết, chúng ta xét hai chuỗi AR(1) và MA(1)
AR(1)
(1) Trung bình
Trang 12(2) Phương sai
(3) Hiệp phương sai
(4) Hệ số tự tương quan [tức là AC = hiệp phương sai/phương sai]
Corr(Xt,Xt + 1) = 1Corr(Xt,Xt + 2) = 2
… Corr(Xt,Xt + h) = hVậy, AR(1) là một chuỗi dừng vì nó có trung bình bằng 0, phương sai không đổi và hiệp phương sai chỉ phụ thuộc vào khoảng cách giữa hai giai đoạn (tức khoảng cách h) Ví dụ, hiệp phương sai giữa Xt và Xt - 3 bằng hiệp phương sai giữa Xt – 1 và Xt - 4 (tức khoảng cách
h = 3), nhưng hiệp phương sai giữa Xt và Xt - 3 (h = 3) sẽ khác với hiệp phương sai giữa Xt
và Xt - 4 (h = 4) Điểm quan trọng [để nhận diện một chuỗi Xt có theo cơ chế AR(1) hay không] là hệ số AC giảm dần và tiến về 0 khi h tăng lên [nghĩa là AC1 0, AC2 0, … ACh
0, và ACh - > 0]; và chỉ có PAC1 0, và PAC2 = PAC3 = … = PACh = 0
Trang 13Lập luận tương tự cho AR(2): chỉ có PAC1 0 và PAC2 0, và PAC3 = … = PACh = 0 MA(1)
(3) Hiệp phương sai
Cov(Xt, Xt - 1) = Cov(t + t - 1, t - 1 + t - 2) = Cov(t - 1, t - 1) = 2
Cov(Xt, Xt - ) = Cov(t + t - 1, t - + t – 1 - ) = 0 (4) Hệ số tự tương quan [tức là AC = hiệp phương sai/phương sai]
Corr(Xt,Xt + 1) = /(1+ 2) 0 Corr(Xt,Xt + 2) = 0
… Corr(Xt,Xt + h) = 0 Vậy, MA(1) là một chuỗi dừng vì nó có trung bình bằng 0, phương sai không đổi và hiệp phương sai chỉ phụ thuộc vào khoảng cách giữa hai giai đoạn (tức khoảng cách h) Ví dụ, hiệp phương sai giữa Xt và Xt - 1 bằng hiệp phương sai giữa Xt – 1 và Xt - 2 (tức khoảng cách
h = 1), nhưng hiệp phương sai giữa Xt và Xt - 1 (h = 1) sẽ khác với hiệp phương sai giữa Xt
và Xt - 2 (h = 2) Điểm quan trọng [để nhận diện một chuỗi Xt có theo cơ chế MA(1) hay không] là chỉ có hệ số AC1 0 và AC2 = AC3 = … = ACh = 0; và các hệ số PAC sẽ khác 0 và giảm dần khi h tăng lên [chúng ta suy ra từ tính chất INVERTIBILITY giữa MA(1) và AR()
và giữa AR(1) và MA(), xem bài giảng của Ben Lambert: Invertibility - converting an
Lập luận tương tự cho MA(2): chỉ có AC1 0 và AC2 0, và AC3 = AC4 = … = ACh = 0
Trang 14Đến đây, chắc có bạn sẽ hỏi PAC là gì?
PAC = Partial Autocorrelation Coefficient
PAC được hiểu một cách tương tự như hệ số hồi quy riêng [xem Tóm lược kinh tế lượng căn bản, # 2]
Ví dụ, ta xét hệ số PACk:
Yt = b0 + b1Yt – 1 + … + bkYt – k + et (1)
Theo (2), chúng ta thấy rằng vk được hiểu là Yt – k sau khi loại trừ các ảnh hưởng của Yt –
1, Yt – 2, …, Yt – k – 1 lên Yt – k Nên nó có tên gọi là RIÊNG PHẦN
Theo (3), chúng ta thấy rằng bk (tức PACk) chính là ảnh hưởng của riêng Yt – k lên Yt Một lưu ý khác là AC1 luôn bằng PAC1
AC1 = Cov(Yt, Yt – 1)/sqrt[Var(Yt)]*sqrt[Var(Yt – 1)] = Cov(Yt, Yt – 1)/Var(Yt)]
PAC1 = Cov(Yt, Yt – 1)/Var(Yt – 1) = Cov(Yt, Yt – 1)/Var(Yt)
Xác định AR(1), MA(1) bằng giản đồ tự tương quan
Trang 15drawnorm e1, n(400) means(0) sds(1)
Trang 17Các dạng đồ thị có thể có của AR(1) và AR(2)
Các dạng đồ thị có thể có của MA(1) và MA(2)
Trang 19ARMA(1, 1)
Trang 20Mô hình tự trung bình trượt tự hồi quy (ARMA)
Chúng ta có thể kết hợp các mô hình AR và MA và tạo thành mô hình được gọi là ARMA(p, q), với p số hạng tự hồi quy và p số hạng trung bình trượt, các giá trị p và q được xác định một cách thực nghiệm [tức dựa vào đồ thị PAC và AC, và tiêu chí thông tin như AIC]
Mô hình tích hợp trung bình trượt tự hồi quy (ARIMA)
Như đã lưu ý, phương pháp Box-Jenkins dựa trên giả định rằng chuỗi thời gian cơ bản
là dừng hoặc có thể chuyển thành chuỗi dừng bằng cách lấy sai phân một hoặc nhiều lần Đây được gọi là mô hình ARIMA(p,d,q), trong đó d ký hiệu số lần một chuỗi thời gian phải được lấy sai phân để chuyển thành một chuỗi dừng Trong hầu hết các ứng dụng, d = 1, nghĩa là, chúng ta chỉ lấy sai phân bậc một của chuỗi thời gian Dĩ nhiên, nếu một chuỗi thời gian đã dừng rồi, thì một mô hình ARIMA(p,d,q) trở thành một mô hình ARMA(p,q)
Câu hỏi thực tế là làm sao xác định mô hình thích hợp trong một trường hợp nhất định
Để trả lời câu hỏi này, phương pháp Box – Jenkins thược thực hiện theo một quy trình bốn bước như sau:
• Bước 1: Nhận dạng: Xác định các giá trị thích hợp của p, d, và q Các công cụ chính cho việc tìm kiếm này là giản đồ tự tương quan (AC) và giản đồ tự tương quan riên (PAC)
Trang 21• Bước 2: Ước lượng: Một khi chúng ta đã nhận dạng được mô hình, bước kế tiếp
là ước lượng các tham số của mô hình được chọn Trong một số trường hợp, chúng ta có thể sử dụng phương pháp bình phương bé nhất thông thường (OLS), nhưng trong nhiều trường hợp thì chúng ta phải dựa vào các phương pháp ước lượng phi tuyến (ở tham số) Vì các phần mềm thống kê đã có sẵn các thủ tục ước lượng, nên chúng ta không phải lo lắng về khía cạnh toán học thực sự của việc ước lượng
• Bước 3: Kiểm tra chẩn đoán: Mô hình hóa theo phương pháp Box-Jenkins là một nghệ thuận hơn là khoa học bởi vì nó đòi hỏi kỹ năng đáng kể để chọn mô hình ARIMA đúng, vì chúng ta có thể không hoàn toàn chắc chắn rằng mô hình được chọn là mô hình đúng Một kiểm định đơn giản điều này là xem phần dư từ mô hình ước lượng có phải là nhiễu trắng hay không; nếu đúng là vậy, thì chúng ta
có thể chấp nhận mô hình, nhưng nếu phần dư chưa phải là một nhiễu trắng, thì chúng ta sẽ phải bắt đầu lại Đó là lý do tại sao phương pháp Box-Jenkins là một quy trình lặp
• Bước bốn: Dự báo: Kiểm định cuối cùng để biết một mô hình ARIMA có thành công hay không là dựa vào thành tích dự báo của nó, cả dự báo trong giai đoạn mẫu cũng như ngoài giai đoạn mẫu
Diễn giải: Theo kinh nghiệm, có hai cách tiếp cận để xây dựng mô hình ARIMA
1) Từ đơn giản đến khái quát: [giả sử chuỗi dừng (nếu không dừng thì thường chúng
ta lấy logorit, rồi lấy sai phân bậc một)] Từ giản đồ PAC và AC của chuỗi (dừng) đang xem xét, chúng ta xác định xem chuỗi đó có thể là AR(1) hoặc MA(1) hoặc ARMA(1,1) Ước lượng mô hình đơn giản nhất vừa được chọn, lưu phần dư từ
mô hình ước lượng, rồi xem giản đồ PAC và AC của phần dư: nếu hệ số PAC hoặc
AC nào của phần dư khác 0, thì chúng ta đưa độ trễ tương ứng của AR hoặc MA vào mô hình ban đầu, rồi ước lượng lại Quy trình được tiếp tục cho đến khi phần
dư là một hạng nhiễu trắng [kết hợp so sánh AIC giữa các mô hình: mô hình nào
có AIC nhỏ hơn sẽ tốt hơn]
2) Từ khái quát đến giản đơn: [giả sử chuỗi dừng (nếu không dừng thì thường chúng
ta lấy logorit, rồi lấy sai phân bậc một)] Từ giản đồ PAC và AC của chuỗi (dừng) đang xem xét, chúng ta xác định tất cả các hệ số PAC và AC nào khác 0, và đưa tất cả vào mô hình ban đầu Ước lượng mô hình với các p và q vừa được chọn Trước hết, xem độ trễ dài nhất của AR và MA có ý nghĩa thống kê hay không: nếu
có thì để nguyên, nếu không thì loại độ trễ dài nhất không có ý nghĩa thống kế, rồi ước lượng lại mô hình Khi đã thấy các độ trễ dài nhất của AR và MA đều có ý nghĩa thống kê, chúng ta lưu phần dư từ mô hình này, rồi xem giản đồ PAC và AC của phần dư: nếu hệ số PAC hoặc AC nào của phần dư khác 0, thì chúng ta lại đưa độ trễ tương ứng của AR hoặc MA vào mô hình vừa được ước lượng, rồi ước lượng lại Quy trình được tiếp tục cho đến khi phần dư là một hạng nhiễu trắng [kết hợp so sánh AIC giữa các mô hình: mô hình nào có AIC nhỏ hơn sẽ tốt hơn]
Lưu ý: Để biết hệ số PAC hoặc AC nào khác 0, chúng ta có thể nhìn vào giản đồ PAC và
AC (Eviews hoặc Stata) Tuy nhiên, đôi khi việc xem giản đồ PAC hoặc AC không phải là
Trang 22việc dễ dàng, nhất là khi cỡ mẫu lớn Cho nên, để thận trọng chúng ta nên xây dựng khoảng tin cậy cho các hệ số PAC và AC như sau:
1) Tính sai số chuẩn: se = sqrt(1/n), n là số quan sát (theo Bartlett)
2) Tính khoảng tin cậy 95% bằng [-1.96*se, 1.96*se]
3) So sánh các hệ số PAC và AC với khoảng tin cậy này: hệ số PAC hoặc AC nào nằm ngoài khoảng tin cậy này được cho là khác 0 một cách có ý nghĩa thống kê [XEM
Để xem mô hình ARIMA nào phù hợp với dữ liệu DLCLOSE, và theo phương pháp Jenkins, chúng ta xem giản đồ tự tương quan của chuỗi này với 50 độ trễ (Bảng 16.4), mặc dù giản đồ này không thay đổi nhiều nếu chúng ta xem xét nhiều độ trễ hơn Giản đồ tự tương quan (correlogram) này cho hai loại hệ số tương quan: AC (autocorrelation) và PAC (partial autocorrelation) Hàm ACF (autocorrelation function) cho chúng ta biết sự tương quan của DLCLOSE hiện tại (thời điểm t) với các giá trị trễ của nó (t - k) Hàm PACF (partial autocorrelation function) cho chúng ta biết sự tương quan giữa các quan sát các quan sát cách nhau k giai đoạn sau khi đã kiểm soát ảnh hưởng của các độ trễ trung gian (tức là các độ trễ ít hơn k)10 Phương pháp Box-Jenkins
Box-sử dụng cả hai hệ số này để nhận dạng loại mô hình ARMA có thể phù hợp trong một trường hợp nhất định
Một vài biên dạng lý thuyết (theoretical pattern) của ACF và PACF được trình bày trong Bảng 16.5 Lưu ý rằng các ACF và PACF của các cơ chế AR và MA có các biên dạng trái ngược nhau: Ở trường hợp AR(p), ACF giảm theo cấp số mũ như PACF rơi xuống bằng 0 (cut off) sau một số độ trễ nhất định Biên dạng đối ngược lại xảy ra đối với quy trình MA(q) [Xem các minh họa ở phần trên là hiểu ngay]
Nhớ rằng trong một áp dụng cụ thể chúng ta không thể thấy các biên dạng đúng y như các biên dạng được trình bày trong Bảng 16.5 Một số lần ‘thử và sai’ là điều không thể tránh khỏi trong các áp dụng thực tế
Quay lại với ví dụ của chúng ta, chúng ta thấy rằng cả hàm ACF và PACF thay đổi giữa các giá trị âm và dương và không thể hiện một sự giảm theo số mũ trong bất kỳ giai đoạn liên tục nào
10 Đây giống như hệ số hồi quy riêng trong hồi quy bội Trong một mô hình hồi quy k biến, hệ số B k của biến giải thích thứ k cho biết tác động của biến đó lên biến phụ thuộc sau khi giữ nguyên, hoặc cho phép, ảnh hưởng của các biến giải thích khác trong mô hình [ Chưa hiểu thì xem Nội dung ôn tập # 2, Tóm lược kinh tế lượng căn bản ]
Trang 23Một sự xem xét cẩn thận giản đồ tự tương quan cho thấy rằng cả ACF và PACF đều không theo một biên dạng chính xác như được mô tả trong Bảng 16.5 Để biết hệ số tương quan nào có ý nghĩa thống kê (tức khác 0), nhớ lại rằng sai số chuẩn của một hệ
số tương quan (mẫu) được cho bởi công thức √1/𝑛 = √1/739 0.037, ở đây n là cỡ mẫu [xem phương trình (13.2)] Vì thế, khoảng tin cậy 95% của các hệ số tương quan thực là khoảng 1.96(0.037) = (-0.0725 đến 0.0725) Các hệ số tương quan nằm ngoài khoảng giới hạn này là có ý nghĩa thống kê ở mức 5% Trên cơ sở này, dường như các
hệ số tương quan ACF và PACF tại các độ trễ 4, 18, 22, 35, và 43 dường như có ý nghĩa thống kê (xem dải tin cậy trong Hình 16.4)
Bảng 16.5: Các biên dạng điển hình của ACF và PACF
Vì chúng ta không có một biên dạng rõ ràng của các ACF và PACF theo lý thuyết như được trình bày trong Bảng 16.5, nên chúng ta có thể tiến hành theo cách thử và sai Trước hết, giả sử chúng ta ước lượng mô hình AR với các độ trễ 4, 18, 22, 35, và 43 Các kết quả được trình bày trong Bảng 16.6 (Eviews) Như bạn có thể thấy, các hệ số của AR(35) và AR(43) không có ý nghĩa thống kê Tuy nhiên, nên lưu ý rằng khi kiểm định tương quan chuỗi cho phần dư từ hồi quy trước, chúng ta không phát hiện có tương quan chuỗi với độ trễ lên tới 5 Vì thế, mô hình trong Bảng 16.6 có thể là một ‘ứng viên’ cần xem xét kỹ hơn
Bảng 16.4: ACF và PACF của DLCLOSE của giá cổ phiếu IBM