Việc phân tích nhằm phát hiện tri thức mới từ các cơ sở dữ liệu chuỗi thời gian thường được dựa trên các phương pháp phân tích chuỗi thời gian hiện đại thông qua sử dụng các công cụ tin
Trang 1PHÁT HIỆN TRI THỨC THEO MÙA VỤ
TỪ CƠ SỞ DỮ LIỆU CHUỖI THỜI GIAN
Người hướng dẫn: TS Đỗ Văn Thành
Trang 2Mục lục
MỞ ĐẦU 1
CHƯƠNG 1 CHUỖI THỜI GIAN VÀ PHÂN TÍCH CHUỖI THỜI GIAN 4
1.1 Chuỗi thời gian và dự báo chuỗi thời gian 5
1.1.1.Định nghĩa chuỗi thời gian 5
1.1.2.Dự báo chuỗi thời gian 6
1.2 Ứng dụng chuỗi thời gian 6
1.3 Đại lượng đặc trưng của chuỗi thời gian 7
1.4 Phân tích chuỗi thời gian 11
1.5 Các mô hình chuỗi thời gian đơn giản 13
1.5.1 Nhiễu trắng 13
1.5.2.Mô hình bước ngẫu nhiên 13
1.5.3.Bước ngẫu nhiên có bụi 14
1.6 Một số phương pháp kiểm định thống kê 14
1.6.1.Kiểm định T 15
1.6.2.Kiểm định F 15
1.6.3.Kiểm định Q 16
1.6.4.Kiểm định Durbin-Watson 16
1.6.5.Kiểm định nghiệm đơn vị 18
1.6.6.Tiêu chuẩn thông tin Akaike (AIC), Schwarz (SIC) 19
1.7 Kết luận 20
CHƯƠNG 2 MÔ HÌNH ARIMA THƯỜNG VÀ THEO MÙA VỤ 21
2.1 Mô hình ARIMA thường 21
Trang 32.1.1.Toán tử trễ 21
2.1.2.Chuỗi thời gian dừng 22
2.1.3.Quá trình tuyến tính 26
2.1.4.Quá trình tự hồi qui - AR(p) 26
2.1.5.Quá trình trung bình trượt – MA(q) 31
2.1.6 Quá trình trung bình trượt tự hồi qui ARMA(p,q) 34
2.1.7.Mô hình tích hợp trung bình trượt tự hồi qui ARIMA(p,d,q) 36
2.1.8.Qui trình xây dựng mô hình ARIMA (p, d, q) 38
2.1.9.Nguyên tắc tằn tiện 48
2.2 Mô hình ARIMA theo mùa vụ 48
2.2.1.Chuỗi mùa vụ 48
2.2.2.Biến đổi chuỗi mùa vụ thành chuỗi dừng 50
2.2.3.Mô hình tích hợp trung bình trượt tự hồi qui theo mùa vụ ARIMA(p,d,q)x(P,D,Q)s. 51
2.3 Kết luận 55
CHƯƠNG 3 ỨNG DỤNG MÔ HÌNH ARIMA THEO MÙA VỤ 57
KẾT LUẬN 82
TÀI LIỆU THAM KHẢO 85
PHỤ LỤC 88
Trang 4Danh sách hình vẽ
Hình 1 - Chuỗi thời gian về chỉ số giá tiêu dùng Việt Nam đo theo tháng 6
Hình 3 – Đồ thị chuỗi dừng về chỉ số giá tiêu dùng Việt Nam 22
Hình 4 - ACF/PACF của chuỗi không dừng về chỉ số giá tiêu dùng Việt Nam 23
Hình 5 - Chuỗi về chỉ số giá tiêu dùng Việt Nam sau khi sai phân bậc 1 24
Hình 6 - Chuỗi về chỉ số giá tiêu dùng Việt Nam sau sai phân bậc 1 và sai phân trễ mùa vụ bậc 1 25
Hình 7 - Chuỗi biến đổi chỉ số giá tiêu dùng Việt Nam qua hàm biến đổi 25
Hình 8 - Mô hình lọc tuyến tính 26
Hình 7 - Các bước xây dựng mô hình ARIMA 38
Danh sách bảng biểu Bảng 1: Đặc trưng ACF và PACF trong các mô hình tham số 35
Trang 5Bảng từ viết tắt
viết tắt Từ tiếng Anh
Hàm tự tương quan ACF AutoCorrelation Function
Tiêu chuẩn thông tin AIC/SIC AIC/SIC Akaike Information Criteria,
Schwarz Information Criteria Sai số phần trăm tuyệt đối APE Absolute Percent Error
Tích hợp trung bình trượt tự hồi qui ARIMA AutoRegressive Integrated Moving
Average Trung bình trượt tự hồi qui ARMA AutoRegressive Moving Average
Phân phối đồng nhất độc lập I.I.D Independent Identical Distribution
Sai số tuyệt đối trung bình MAE Mean Absolute Error
Sai số bình phương trung bình MSE Mean Square Error
Hàm tự tương quan từng phần PACF Partial AutoCorrelation Function
Tự hồi qui theo mùa vụ SAR Seasonal AutoRegressive
Tích hợp trung bình trượt tự hồi qui
theo mùa vụ
SARIMA Seasonal AutoRegressive Integrated
Moving Average Trung bình trượt theo mùa vụ SMA Seasonal Moving Average
Tổng bình phương sai số SSE Sum of Square Error
Trang 6và quan trọng Vì thế, cách thức thu thập, phân tích và sử dụng các thông tin, dữ liệu phục vụ cho quá trình đó cũng chịu sự biến đổi mạnh mẽ
Hiện tại, với việc ứng dụng rộng rãi công nghệ thông tin, một số luợng lớn thông tin và dữ liệu được thu thập bằng nhiều cách thức khác nhau trong môi trường trực tuyến, thời gian thực…đã tạo ra một khối lượng thông tin, dữ liệu khổng lồ Trong đó những dữ liệu có yếu tố thời gian có thể được kết hợp lại tùy theo đặc tính trong khoảng thời gian thích hợp cũng đã tạo ra một số lượng rất lớn các chuỗi dữ liệu trong các khoảng thời gian như nhau được gọi là dữ liệu chuỗi thời gian (series time data, gọi tắt là chuỗi thời gian)
Như đã biết, phần lớn các dữ liệu phản ánh hoạt động sản xuất kinh doanh của doanh nghiệp, phản ánh tình hình phát triển kinh tế - xã hội của một quốc gia đều là chuỗi thời gian và do vậy phần lớn các cơ sở dữ liệu về kinh tế - xã hội cũng là cơ sở dữ liệu chuỗi thời gian (series time database) Việc phân tích nhằm phát hiện tri thức mới từ các cơ sở dữ liệu chuỗi thời gian thường được dựa trên các phương pháp phân tích chuỗi thời gian hiện đại thông qua sử dụng các công
cụ tin học như: EViews, SPSS, SAS (Statistical Analysis System)…
Một đặc trưng rất quan trọng của chuỗi thời gian về kinh tế - xã hội là có tính mùa vụ, chẳng hạn giá cả và số lượng bán ra của một mặt hàng nào đó ví dụ như máy điều hòa nhiệt, hoặc là chỉ số giá tiêu dùng của các mặt hàng nói chung
là khác nhau tại mỗi tháng trong năm, hay tình hình đầu tư của nước ngoài vào
Trang 7Việt Nam, kim ngạch xuất khẩu của Việt Nam tại các tháng hoặc quý khác nhau trong năm cũng thường rất khác nhau… Làm cách nào để có thể phát hiện được tri thức mới, dự báo được dữ liệu tương lai dựa trên dữ liệu hiện tại và quá khứ
trong các cơ sở dữ liệu chuỗi thời gian có tính mùa vụ như vậy Luận văn ”phát
hiện tri thức theo mùa vụ từ cơ sở dữ liệu chuỗi thời gian” sẽ góp phần làm rõ
phương pháp giải quyết vấn đề được đặt này
Luận văn gồm 3 chương nội dung, phần mở đầu, phần kết luận, phần phụ lục
và tài liệu tham khảo
Chương 1: Chuỗi thời gian và phân tích chuỗi thời gian sẽ giới thiệu một
cách tóm tắt những khái niệm chủ yếu liên quan đến chuỗi thời gian và các bước tiến hành phân tích và dự báo chuỗi thời gian, giới thiệu một số mô hình chuỗi thời gian đơn giản và kiểm định thống kê sử dụng cho phân tích chuỗi thời gian trong dự báo dữ liệu
Chương 2: Mô hình ARIMA thường và theo mùa vụ sẽ trình bày mô hình
phân tích chuỗi thời gian điển hình nhất để dự báo dữ liệu cho cả 2 trường hợp dữ liệu chuỗi thời gian có và không có tính chất mùa vụ, tương ứng đó là mô hình ARIMA theo mùa vụ và mô hình ARIMA thường
Chương 3 Ứng dụng mô hình ARIMA theo mùa vụ Mục đích của chương
này là ứng dụng mô hình ARIMA theo mùa vụ để dự báo một số chỉ số kinh tế vĩ
mô quan trọng phản ánh mức độ tăng trưởng kinh tế Việt Nam như dự báo chỉ số giá tiêu dùng theo tháng (CPI), giá trị hàng hóa xuất khẩu theo tháng Dữ liệu được sử dụng để dự báo là số liệu thực tế của nền kinh tế
Phần kết luận sẽ tổng kết những công việc đã thực hiện và kết quả đạt được
trong luận văn này, phần này cũng đề cập công việc và hướng nghiên cứu trong tương lai
Tác giả luận văn này xin gửi lời cảm ơn sâu sắc nhất đến TS Đỗ Văn Thành, Trung tâm thông tin và dự báo Kinh tế - Xã hội Quốc gia - Bộ kế hoạch và đầu
Trang 8tư, người đã hướng dẫn tận tình và giúp đỡ tôi rất nhiều trong quá trình thực hiện luận văn này, người đã mở ra cho tôi những cách tiếp cận mới của công nghệ thông tin vào trong đời sống thực tế
Xin bày tỏ lời cảm ơn tới các thầy TS Hà Quang Thụy, GS-TSKH Phan Đình Diệu, PGS-TS Trịnh Nhật Tiến, PGS-TS Đoàn Văn Ban, TS Nguyễn Việt
Hà, TS Hoàng Xuân Huấn, PGS-TS Nguyễn Văn Bình,TS Đinh Mạnh Tường, những người đã truyền cho tác giả nhiều kiến thức và kinh nghiệm quý báu trong thời gian tác giả theo học cao học tại Trường Đại học Công nghệ
Cuối cùng, xin gửi lời cảm ơn chân thành đến các cán bộ thuộc Tổng cục Thống kê Việt Nam, những người đã giúp đỡ nhiệt tình trong việc cung cấp số liệu đầy đủ, trung thực phục vụ cho cuốn luận văn này và cũng xin gửi lời cám ơn tới tất cả người thân trong gia đình, bạn bè đã giúp đỡ trong quá trình học tập và công tác
Tác giả
Trần Văn Thái
Trang 9CHƯƠNG 1
CHUỖI THỜI GIAN
VÀ PHÂN TÍCH CHUỖI THỜI GIAN
Để phân tích biến động, hành vi của hiện tượng qua thời gian, người ta thường dùng phương pháp phân tích chuỗi các quan sát theo thời gian Trong phương pháp này thường giả định các giá trị quan sát không độc lập với nhau, ngược lại chính sự phụ thuộc giữa các giá trị quan sát là đặc điểm, cơ sở cho việc xây dựng các phương pháp nghiên cứu và dự báo về chuỗi thời gian Phân tích chuỗi thời gian có thể được chia làm hai loại: Phân tích các mức độ theo thời gian
và phân tích mối liên hệ nguyên nhân – kết quả Phương pháp dự báo bằng phân tích mức độ theo thời gian liên quan đến việc dự báo các giá trị tương lai của yếu
tố được nghiên cứu dựa trên sự tương quan với các quan sát trong quá khứ và hiện tại Trong khi đó phân tích mối liên hệ nhân quả liên quan đến việc xác định các nhân tố khác ảnh hưởng đến yếu tố muốn dự báo, như dùng phương pháp phân tích hồi qui bội xem xét GDP phụ thuộc vào lượng đầu tư trong nước, lượng đầu tư nước ngoài, dân số…
Trong luận văn này, chỉ tập trung chủ yếu vào phân tích mức độ theo thời gian được dựa trên giả định cơ bản là các yếu tố ảnh hưởng đến biến động của hiện tượng trong quá khứ và hiện tại sẽ còn tiếp tục tồn tại trong tương lai Do đó mục tiêu chính của phân tích chuỗi thời gian là nhận ra các yếu tố ảnh hưởng này, phục vụ cho mục đích đưa ra dự báo giá trị tương lai của chuỗi và dựa vào đó để
hỗ trợ trong việc đưa ra các quyết định
Trong chương này chủ yếu trình bày các vấn đề liên quan đến chuỗi thời gian bao gồm khái niệm, dự báo cho chuỗi thời gian và các đại lượng đặc trưng của nó, tiếp đó trình bày về các mô hình chuỗi thời gian đơn giản và cuối cùng là đưa ra một số phương pháp kiểm định thống kê cho mô hình chuỗi thời gian
Trang 101.1 Chuỗi thời gian và dự báo chuỗi thời gian
1.1.1.Định nghĩa chuỗi thời gian
Chuỗi dữ liệu phụ thuộc thời gian được chia làm hai loại:
- Chuỗi dữ liệu phụ thuộc thời gian được quan sát, đo đạc trong khoảng thời gian rời rạc: Các quan sát được thực hiện tại các thời điểm tách biệt, chúng thường là các quan sát được đo tại các mốc thời gian cách đều nhau, ví dụ chuỗi thời gian được đo theo tuần, quý, tháng, năm, …
- Chuỗi dữ liệu liên tục theo thời gian: Các quan sát được đo trong khoảng thời gian liên tục, ví dụ chuỗi dữ liệu đo nhiệt độ trong ngày (nhiệt kế)
Luận văn này tập trung vào chuỗi dữ liệu phụ thuộc thời gian được đo trong khoảng thời gian rời rạc và cách đều nhau, gọi là chuỗi thời gian (series time data)
gian t như nhau (hàng năm, quý, tháng, tuần, ngày…) và được xếp theo thứ tự thời gian
Ví dụ:
- Chuỗi giá trị tổng sản phẩm quốc nội (GDP) được đo theo từng quý
- Chuỗi giá trị đo lượng mưa trung bình hàng năm
- Chuỗi giá trị chỉ số thị trường chứng khoán đo theo ngày
- Chuỗi giá trị đo sản lượng điện năng tiêu thụ của Việt Nam đo theo từng tháng, từng quí trong nhiều năm
- Chuỗi giá trị về chỉ số giá tiêu dùng của Việt Nam theo từng tháng, quý trong năm
Trang 11Hình 1 - Chuỗi thời gian về chỉ số giá tiêu dùng Việt Nam đo theo tháng
1.1.2.Dự báo chuỗi thời gian
được quan sát trong quá khứ
Chất lượng của dự báo phụ thuộc vào nhiều yếu tố chẳng hạn sự phức tạp của chuỗi thời gian khi thực hiện phân tích, tác động của nhiều yếu tố bất thường không thể lường trước được khi tiến hành dự báo, ngoài ra độ chính xác cũng còn phụ thuộc phần lớn vào khoảng cách xa gần của dự báo (dự báo gần thì cho độ chính xác của dự báo tốt hơn so với dự báo xa)
1.2 Ứng dụng chuỗi thời gian
Chuỗi thời gian được ứng dụng trong rất nhiều lĩnh vực, cụ thể như:
- Tài chính - Tiền tệ: ví dụ dựa vào phân tích trên chuỗi thời gian về chỉ số chứng khoán cho phép ta đưa ra các quyết định đầu tư cổ phiếu với mức rủi ro thấp
- Môi trường: Từ hai chuỗi thời gian SOI (Southern Oscillation Index) và chuỗi AR (Associated Recruitment), đo sự thay đổi áp suất không khí và nhiệt độ mặt nước biển tại trung tâm Thái Bình Dương, trong thời gian 453 tháng khoảng
Trang 12từ 1950 – 1987, đã phát hiện được rằng cứ khoảng từ 3 - 7 năm có một hiệu ứng
ấm lên, được gọi là hiện tượng El NiÑo [10]
- Thương mại: Từ chuỗi thời gian về kinh doanh rượu hàng tháng tại Australia từ 1980 – 1991 người ta dự báo khá chính xác nhu cầu tiêu thụ rượu ở nước này trong nhiều năm tiếp theo [8]
- Nhân khẩu học: Từ chuỗi dữ liệu theo thời gian về dân số của Mỹ được điều tra trong chu kỳ 10 năm 1790 đến 1990 người ta đã dự báo khá chính xác dân số nước Mỹ những năm tiếp theo đó [10]
Và còn nhiều lĩnh vực khác nữa như tiền tệ, kinh tế, đầu tư, thị trường, sản xuất…
1.3 Đại lượng đặc trưng của chuỗi thời gian
a Các đại lượng thống kê đặc trưng cho chuỗi thời gian:
Kỳ vọng: Đại diện cho giá trị trung tâm trong chuỗi
Vì không thể nghiên cứu được toàn bộ tổng thể mà chỉ nghiên cứu được tập con các phần tử của tổng thể gọi là mẫu Lý do là, thu thập thông tin về toàn bộ tổng thể sẽ quá đắt về thời gian và tiền bạc Hơn nữa, trong nhiều trường hợp để nghiên cứu toàn bộ tổng thể ta phải bỏ toàn bộ các phần tử của tổng thể mà chỉ nghiên cứu một số phần tử nào đó của tổng thể tức là chỉ nghiên cứu mẫu thôi, từ
đó suy đoán về tổng thể Các phần tử chọn để nghiên cứu tổng thể được gọi là mẫu ngẫu nhiên Nên kỳ vọng của tổng thể được tính dựa trên mẫu các quan sát gọi là kỳ vọng mẫu, như sau:
n
1 t t
z n
1 z
Phương sai: Đại diện cho mức độ phân tán các giá trị trong chuỗi xung
E t
Trang 13Tương tự, phương sai mẫu được tính:
Độ lệch chuẩn: là căn bậc hai của phương sai mẫu:
2 z
ˆ
b Các đại lượng mô tả mối quan hệ giữa các phần tử trong chuỗi:
Tự hiệp phương sai: Sử dụng để đo mức độ tương quan tuyến tính của hai
biến ngẫu nhiên trong cùng một chuỗi thời gian Nó phản ánh sự phụ thuộc hay độc lập tuyến tính của các biến ngẫu nhiên trong chuỗi
Tự hiệp phương sai giữa hai biến ngẫu nhiên trong cùng một chuỗi thời gian tại thời điểm t ký hiệu là zt và tại thời điểm t + k ký hiệu là zt + k , giữa chúng có k
- 1 quan sát gọi là k độ trễ, được xác định như sau:
cov ) k
z t t
z ( 0 ) cov z , z
Tương tự, tự hiệp phương sai mẫu được tính:
) z z )(
z z ( n
1 ) k (
1 t t
Trong đó, z là kỳ vọng mẫu của zt và zt + k
Hàm tự tương quan (ACF): Đại lượng mô tả tương quan tại trễ k giữa các
giá trị trong chuỗi thời gian, được xác định:
E )
z
t
2 z
2 n
1 t t
Trang 14) 0 ( ˆ
) k ( ˆ ˆ
2 t
k t t
z z
z z
z
k t t k
)z
(E)z(E
)z
)(
z(E)
k()
z,zcov(
k t t k
Trong đó,z( k )là tự hiệp phương sai,zt , ztklần lượt là độ lệch chuẩn của zt
z
tương quan tại trễ k được tính:
) 0 (
) k (
z
z k
với tham số biến thiên theo trễ k (k = 1,2…) gọi là hàm tự tương quan
Tự tương quan mẫu được tính theo công thức:
Một vài tính chất của tự tương quan mẫu:
- Tính chất 1: 1 ˆk 1
- Tính chất 2: k 0 ˆ0 1
- Tính chất 3: ˆk ˆk
Dựa trên mối quan hệ tự tương quan giữa các phần tử trong chuỗi mà có thể xây dựng được các mô hình dự báo chuỗi thời gian
nhiên, sự tương quan giữa chúng có thể chịu sự tác động của các biến khác, trong
(không bị ảnh hưởng ràng buộc bởi mối quan hệ với các biến trung gian) Được tính theo công thức:
(1.8)
(1.9)
Trang 15j j 1 k
1 k 1 j
j k j 1 k k
kk
1
độ trễ k = 2,3
kj k1j kkk1,kj j = 1, 2 k - 1
Giá trị ban đầu,11 1
Bằng tính toán tương tự trên các quan sát mẫu có được tự tương quan từng
thiên theo độ trễ k được gọi là hàm tự tương quan từng phần
Tự tương quan từng phần có thể được hiểu theo quan điểm của bài toán dự báo đó là giả định muốn dự báo giá trị của zt+h từ các giá trị zt+h-1, ,zt, dựa trên sự kết hợp tuyến tính các giá trị quá khứ này Sau đó xem xét sai số dự báo bình phương trung bình tối thiểu (Mean Square Error - MSE):
của hệ số ah (hh ah)
Giả sử cho mô hình hồi qui chuỗi thời giany t 1 2 z t a t, vớiy t gọi là biến
R2 được tính:
hình hồi qui được lựa chọn là hợp lý tức là sự thay đổi giá trị của biến phụ thuộc
(1.11)
(1.12)
(1.10)
] ) z a z
[(
E
1 k
k h t k h
2 i n
1 i
2 i
2 n
1 i
i i
2
) y y ( ) z z (
) y y )(
z z ( ( R
Trang 16được giải thích bằng mô hình, ngược lại nếu R2 tiến về 0 thì mô hình được lựa chọn là không hợp lý hay mô hình không thể giải thích được sự biến đổi của biến phụ thuộc
hợp lý của mô hình, chẳng hạn khi thêm các tham biến được cho là không hợp lý
k n
1 n ) R 1 ( 1
ở đây n là số các quan sát của chuỗi thời gian, k là số các tham biến trong mô
vào mô hình
1.4 Phân tích chuỗi thời gian
trong nó, việc này được thực hiện trên các quan sát mẫu, gồm có những bước sau: Bước 1: Nhận dạng các thành phần ẩn tồn tại trong chuỗi thời gian [4]:
- Thành phần xu thế (Trend - T): Thể hiện chiều hướng biến động tăng hoặc giảm của các hiện tượng nghiên cứu trong thời gian dài
- Thành phần chu kỳ (Period - P): Thể hiện biến động của hiện tượng được lặp lại với chu kỳ nhất định, thường kéo dài từ 2 đến 10 năm
- Thành phần mùa vụ (Seasonal - S): Biểu hiện sự tăng hoặc giảm mức độ của hiện tượng ở một số thời điểm (tháng, quý) nào đó được lặp đi lặp lại qua nhiều năm
- Thành phần ngẫu nhiên (Irregular - I): Thể hiện những biến động không có qui luật và hầu như không dự báo hoặc quan sát được trong của hiện tượng đang nghiên cứu
(1.13)
Trang 17Những thành phần này kết hợp với nhau trong chuỗi thời gian bằng nhiều
hành vi cũng như dự báo biến động của chuỗi thời gian thì cần thiết phải ước lượng được các thành phần nói trên trong chuỗi thời gian và cách thức kết hợp chúng với nhau trong chuỗi
Bước 2: Làm trơn số liệu
Sau khi xác định được các thành phần trên trong chuỗi thời gian tiếp theo phải tiến hành làm trơn dữ liệu Tức là loại trừ được thành phần xu thế và mùa vụ trong chuỗi thời gian Chuỗi thu được sau cùng không còn chứa các thành phần
đó (chuỗi được làm trơn) sẽ khiến cho việc phân tích dễ dàng hơn
Bước 3: Chọn lựa, ước lượng và đánh giá mô hình
Chọn lựa mô hình trong lớp các mô hình, sao cho mô hình được lựa chọn là
“tốt nhất” trong số các mô hình ứng cử và nó cũng phải đơn giản và có thể hiểu được dễ dàng Sau đó thực hiện ước lượng các tham số, phần dư cho mô hình vừa chọn lựa và chúng phải thỏa mãn các tiêu chí kiểm định, đánh giá Mô hình ước lượng được đánh giá là hợp lý khi đó sẽ sinh ra chuỗi “gần giống” với chuỗi dữ liệu quan sát thực
Bước 5: Ứng dụng mô hình dự báo vào trong thực tế
Trên cơ sở các dự báo về các giá trị tương lai của hiện tượng nghiên cứu đề
ra các quyết định kinh doanh hoặc chính sách Đồng thời gộp thêm các giá trị
Trang 180
0 k
0 k , )
a a
cov(
t , )
a
var(
t
t t k
2 a t
độc lập (Independent Identical Distribution - i.i.d), với các đại lượng đặc trưng như sau:
Trong thực tế, rất hiếm chuỗi thời gian là nhiễu trắng, nhưng nó lại là công
cụ cơ bản để tạo ra mô hình phức tạp
1.5.2.Mô hình bước ngẫu nhiên
Mô hình bước ngẫu nhiên là mô hình mà giá trị sinh ra từ nó được xác định bằng giá trị của quan sát ngay trước nó cộng thêm nhiễu trắng:
t 1 t
z
trong đó, t = 1,2, at là nhiễu trắng, at và zt không tương quan với nhau
Đại lượng đặc trưng cho mô hình bước ngẫu nhiên:
- Kỳ vọng:E ( zt) E ( zt1) E ( at) E ( zt1), là không đổi
(1.14)
Trang 19- Phương sai: Mô hình bước ngẫu nhiên viết lại dưới dạng truy hồi như sau:
1 0
z
1 2 0 2 1
z
t 2 1 0
z
var( zt) var( z0 a1 a2 at) var( z0) var( a1) var( at)
a
t ) t z var(
cov( ztzt1) cov( zt1zt1) cov( atzt1)
a 1
t 1 t 1
t
z
quan với nhau nên cov(at, zt-1) = 0
a k
t
z cov(
- Tự tương quan:
t
k t t
) k t ( ) z var(
) z z cov(
2 a
2 a t
k t t k
1.5.3.Bước ngẫu nhiên có bụi
Mô hình bước ngẫu nhiên có bụi là mô hình bước ngẫu nhiên cộng thêm một hằng số α:
t 1 t
z
1.6 Một số phương pháp kiểm định thống kê
Xét mô hình tổng quát: y t 1 2 z t a t
kiểm định thống kê cho mô hình trên gồm:
(1.15)
(1.16)
Trang 201.6.1.Kiểm định T
điều đƣợc quan tâm hơn cả là hệ số ƣớc lƣợng này có bằng 0 hay không? Kiểm định T còn đƣợc gọi là kiểm định ý nghĩa của hệ số ƣớc lƣợng trong mô hình, với
Thống kê
j
j ˆ
j j
ˆ
ˆ ˆ
ˆ T
số ƣớc lƣợng mẫu j, thống kê T tuân theo phân phối chuẩn T với n - 1 bậc tự do
hạnT/2( n 1 ) Nếu T T/2( n 1 )thì bác bỏ giả thiết H0, còn ngƣợc lại chấp nhận
1.6.2.Kiểm định F
Kiểm định T không dùng để kiểm định giả thiết gộp là các hệ số ƣớc lƣợng
) k n /(
) R 1 (
) 1 k /(
hình (trong mô hình trên có hai tham biến nên k = 2), sẽ có phân phối chuẩn F với
định giá trị tới hạnF( k 1 , n k ) Nếu F F( k 1 , n k ) thì bác bỏ giả thiết H0,
(1.18) (1.17)
Trang 211.6.3.Kiểm định Q
bậc k:H0 : 1 2 k 0 (tự tương quan đồng thời thời bằng 0 cho đến trễ k)
2 j
ˆ n Q
2 j LB
j n
ˆ ) 2 n ( n Q
kết luận về sự tương quan trong chuỗi
chuỗi thời gian Trong thực tế, khi kiểm định sự tự tương quan phải lựa chọn bậc trễ k phù hợp cho kiểm định Nếu chọn bậc trễ k quá nhỏ kiểm định có thể không phát hiện tương quan ở các bậc cao hơn và ngược lại chọn bậc trễ k quá lớn có thể khiến cho việc kiểm định có hiệu quả thấp do bởi tương quan có nghĩa tại một trễ
có thể bị che khuất bởi các tương quan không có nghĩa tại các trễ khác
1.6.4.Kiểm định Durbin-Watson
thân nó vẫn còn chứa quan hệ tự tương quan, làm thế nào có thể phát hiện ra quan
(1.19)
(1.20)
[1]
) k (
Trang 22] 4 , 0 [ d
) 1 ( 2 a
a a 2 2
t
1 t
t 1 t
a
a a
, 1 1, là hệ số tự hồi qui mẫu,tlà nhiễu trắng
a
)aa(d
t t
2 t
a
a a
a 2 a d
1 t
2
t ~ a
a thì và vì 1 1 thì rõ ràng là giá trị
mô hình, kết hợp với giá trị được tính toán d có thể kết luận về sự tự tương quan trong chuỗi at , như sau:
Kiểm định Durbin-Watson có một vài nhược điểm đó là chỉ kiểm định được
sự tự tương quan bậc nhất trong chuỗi và nó không chấp nhận biến phụ thuộc ở
(1.21)
[3]
(1.22)
Trang 23bên phải của mô hình Để khắc phục điều nó người ta cải tiến nó thành kiểm định Breusch-Godfrey LM
1.6.5.Kiểm định nghiệm đơn vị
Xét mô hình tự hồi qui zt zt1 at, at là nhiễu trắng
Trừ 2 vế (1.23) cho zt – 1 được: , ký hiệu thì
zt zt1 at
đơn vị
Để tìm chuỗi không dừng thì hoặc là ta sẽ ước lượng (1.23) với giả thiết
δ = 0 Trong cả hai trường hợp ta đều không dùng được tiêu chuẩn kiểm định T ngay trong trường hợp mẫu lớn Dickey-Fuller (DF) đưa ra tiêu chuẩn kiểm định giả thiết như sau:
Ước lượng bằng mô hình (1.23) thì ˆ / ˆˆ, với ˆ là hệ số ước lượng mẫu và
bảng phân bố Dickey-Fuller tìm giá trị tới hạn, nếu | ˆ / ˆ ˆ | | | thì bác bỏ giả
Tiêu chuẩn DF được áp dụng cho các mô hình sau:
(1.23)
(1.24)
t 1 t 1
t t
z
1
Trang 24-
định DF thực hiện trên mô hình cải biên sau:
t m
1 i
i t i 1
t 1
1.6.6.Tiêu chuẩn thông tin Akaike (AIC), Schwarz (SIC)
Làm thế nào chọn đƣợc mô hình đƣợc cho là tối ƣu nhất trong nhiều mô hình ứng cử, hai tiêu chuẩn AIC, SIC là những tiêu chuẩn cho phép chọn lựa đƣợc một
mô hình đƣợc cho là tối ƣu nhất
- Tiêu chuẩn
n
k 2 ˆ log ) k ( AIC 2
- Tiêu chuẩn
n
n log k ˆ log ) k ( SIC 2
trong đó k là số các tham số trong mô hình, n là số các quan sát trong mẫu, 2
ˆ
Tiêu chí để chọn lựa mô hình hợp lý trong nhiều mô hình ứng cử là chọn giá trị k (số các tham số) của mô hình ứng cử mà có giá trị AIC(k), SIC(k) là nhỏ nhất
(1.25)
[10]
t 1 t
z
t 1 t
z
t 1 t 1
z
Trang 251.7 Kết luận
Trong chương 1 trình bày định nghĩa chuỗi thời gian, dự báo chuỗi thời gian
và giới thiệu một số lĩnh vực trong thực tế có ứng dụng việc phân tích, dự báo chuỗi thời gian Các bước tổng quát để tiến hành phân tích chuỗi thời gian và một
số mô hình chuỗi thời gian đơn giản cũng như các đại lượng đặc trưng như trung bình, phương sai, tự tương quan, tự tương quan từng phần…cho chuỗi thời gian
và công thức xác định chúng cũng được chỉ ra trong chương này Phần cuối của chương, đề cập đến các phương pháp kiểm định giả thiết đặc trưng cho mô hình chuỗi thời gian như Durbin-Watson, kiểm định T, kiểm định Q, kiểm định nghiệm đơn vị Dickey-Fuller và khoảng tới hạn để giả thiết kiểm định được chấp nhận
Trong chương tiếp theo của luận văn sẽ trình bày một mô hình điển hình được sử dụng để dự báo cho chuỗi thời gian đó là mô hình tích hợp trung bình trượt tự hồi qui (ARIMA) thường và theo mùa vụ
Trang 26CHƯƠNG 2
MÔ HÌNH ARIMA THƯỜNG VÀ THEO MÙA VỤ
2.1 Mô hình ARIMA thường
ARIMA là chữ viết tắt của tích hợp trung bình trượt tự hồi qui thường Mô hình ARIMA được sử dụng trong phân tích, dự báo chuỗi thời gian bằng cách kết hợp các hành vi quan sát được trong quá khứ, trong hiện tại và nhiễu hiện tại cộng nhiễu trong quá khứ
2.1.1.Toán tử trễ
Toán tử trễ, ký hiệu B, là một toán tử thao tác trên chuỗi thời gian với tính chất là làm dịch chuyển quan sát tại thời gian t sang quan sát tại thời gian t - 1 Như vậy về mặt toán học, toán tử B được gọi là toán tử trễ nếu nó thực hiện phép biến đổi:
Toán tử trễ có các tính chất điển hình sau:
- Sai phân theo trễ mùa vụ bậc 1:
t z
(2.6)
2 t z 1 t z 2 t z ) t z ( t z
d
t z ) s B 1 ( s t z t z t z
s
1 t
Bz
Trang 272.1.2.Chuỗi thời gian dừng
1 Định nghĩa chuỗi thời gian dừng
Trước khi phân tích, mô hình hóa chuỗi thời gian cũng như đưa ra dự báo từ
mô hình phải luôn giả định rằng chuỗi thời gian phải dừng, bởi vì với chuỗi dừng thì các đại lượng đặc trưng chẳng hạn phương sai, kỳ vọng của nó mới có nghĩa đồng thời chỉ khi xây dựng mô hình trên chuỗi thời gian dừng thì dự báo đưa ra mới đáng tin cậy
không đổi theo thời gian và hiệp phương sai giữa hai quan sát bất kỳ chỉ phụ thuộc vào khoảng cách (độ trễ về thời gian) giữa t và t - k, không phụ thuộc vào
- Hiệp phương sai: z( k ) cov( ztztk) cov( zqzqk) t, q | t q
Hình 3 – Đồ thị chuỗi dừng về chỉ số giá tiêu dùng Việt Nam
Nếu chuỗi không thỏa mãn các điều kiện trên thì được gọi là chuỗi thời gian không dừng Do vậy tính dừng rất quan trọng khi phân tích chuỗi thời gian, có một số phương pháp để kiểm định chuỗi thời gian dừng như sau:
(2.7)
(2.8) (2.9)
Trang 28a Phương pháp 1: Kiểm định dựa trên tương quan đồ của hàm tự tương quan ACF Bartlett [2] đã chỉ ra rằng, nếu chuỗi là ngẫu nhiên và dừng thì hàm tự tương quan sẽ có phân bố xấp xỉ với phân bố chuẩn N(0,1/n) (n là số các quan sát) Do vậy, nếu chuỗi là dừng thì 95% tự tương quan mẫu sẽ nằm trong khoảng
ACF) Còn ngược lại thì chuỗi không phải là dừng khi có nhiều tự tương quan mẫu nằm ngoài khoảng giới hạn này
Hình 4 - ACF/PACF của chuỗi không dừng về chỉ số giá tiêu dùng Việt Nam
Tính chất đặc trưng hàm ACF,với tham số trễ k, của chuỗi không dừng là nó giảm rất chậm khi k tăng, và PACF thì có xu thế đạt điểm cực đại tại độ trễ 1
b Phương pháp 2: Có thể kiểm tra chuỗi dừng bằng kiểm định nghiệm đơn
vị DF Nếu có tồn tại nghiệm đơn vị trong chuỗi thì kết luận đó là chuỗi không dừng
c Phương pháp 3: Dùng kiểm định Q để kiểm định tính dừng của chuỗi
Trang 292 Phương pháp biến đổi chuỗi thời gian dừng
Thực hiện bằng một trong các phương pháp sau để biến đổi chuỗi không dừng thành chuỗi dừng
a Phương pháp khử xu thế:
Tính xu thế trong chuỗi thời gian là một nguyên nhân chủ yếu làm cho chuỗi
theo xu thế tuyến tính như sau:
trong đó, lần lượt là ước lượng của hệ số chặn và hệ số góc Để biến đổi
phần dư thu được , có phải là chuỗi dừng không
Ngoài ra xu thế cũng được biểu diễn mô tả bằng hàm đa thức, đường cong tuyến tính, hàm mũ…Và phương pháp loại trừ những xu thế này trong chuỗi để biến đổi thành chuỗi dừng cũng được thực hiện theo cách tương tự
b Phương pháp sai phân:
Đây là phương pháp rất phổ biến thực hiện biến đổi chuỗi không dừng thành chuỗi dừng
- Loại bỏ thành phần xu thế trong chuỗi: Áp dụng toán tử sai phân sai phân bậc d (d ≥ 1):
Hình 5 - Chuỗi về chỉ số giá tiêu dùng Việt Nam sau khi sai phân bậc 1
t 2
ˆ 1
ˆ t
zˆ
t 2
ˆ 1
ˆ t z t
aˆ
2 ˆ , 1
ˆ
t z d ) B 1 ( t z
d
Trang 30- Loại bỏ thành phần mùa vụ trong chuỗi: Áp dụng toán tử sai phân theo trễ mùa vụ bậc D (D ≥ 1):
- Loại trừ thành phần mùa vụ và xu thế trong chuỗi: Áp dụng kết hợp toán tử sai phân bậc d và sai phân theo trễ mùa vụ bậc D:
Hình 6 - Chuỗi về chỉ số giá tiêu dùng Việt Nam sau sai phân bậc 1 và sai
phân trễ mùa vụ bậc 1
c Phương pháp hàm biến đổi:
Chuỗi không dừng có thể có nguyên nhân bởi các dao động trong chuỗi không ổn định Do đó hàm biến đổi được sử dụng để tác động khiến dao động trong chuỗi trở nên ổn định hơn Một tập hợp các hàm biến đổi được Box-Cox
Hình 7 - Chuỗi biến đổi chỉ số giá tiêu dùng Việt Nam qua hàm biến đổi
t z D ) s B 1 ( t z
D
s
t z D ) s B 1 ( d ) B 1 ( D ) s t z t z ( d ) 1 t z t z ( t z
D s
d
Trang 312.1.3.Quá trình tuyến tính
dạng:
t a ) B ( a
z t j t
j j
trong đó at là nhiễu trắng,{ j} là các hằng số thỏa mãn điều kiện , B là
trung bình trượt MA ( ), nếu j 0 khi j < 0 và được viết
Trong trường hợp này, toán tử được xem xét như một bộ lọc tuyến tính,
là chuỗi dừng khi áp dụng với bất kỳ một chuỗi đầu vào dừng
Hình 8 - Mô hình lọc tuyến tính
2.1.4.Quá trình tự hồi qui - AR(p)
Quá trình tự hồi qui là quá trình trong đó dự báo giá trị dựa trên các giá trị trong quá khứ của nó Mô hình bước ngẫu nhiên là một trường hợp đặc biệt của quá trình tự hồi qui
1 Quá trình tự hồi qui bậc một – AR(1)
hệ phụ thuộc tuyến tính vào phần tử ngay trước đó của nó cộng với nhiễu trắng,
và được biểu diễn tuyến tính đơn giản như sau:
tat
z1t
z 1
(2.10)
Lọc tuyến tính
) B (
j
j B )
B (
{B
Trang 32trong đó, at là nhiễu trắng và không tương quan với zt, cov(zt, at) = 0 Quá trình được mô tả trên được gọi là quá trình tự hồi qui bậc 1 - AR(1) Có thể viết (2.11) dưới dạng truy hồi sau:
t a 1
2 1 t a ) 1 t a 2 t
t 1 1 a 1 t 1
1 t
a 1 t a
1 k t z 1 k 1
1 t
a 1
) t
a 1 t
z 1 ( E ) t z (
- Phương sai:
) 1 t ( 2 1 ) 2 t ( 2 1
2 1 1 (
2 a ) 0 z
t 1 1 a 1 t 1
1 t a 1 t a var(
2 1 1 0
khi đó phương sai của AR(1) được tính:
- Tự hiệp phương sai:
) 0 ( z 2 1 1
2 a )
t z
t z var(
) t z 1 t z cov(
1 ) 1 ( ACF ra suy
) t z var(
1
) t a t z cov(
) t z t z cov(
1
) t z ) t a t z 1 cov((
) t z 1 t z cov(
k 1
) t
z k t z cov(
2 1 )
t z var(
) t z 2 t z cov(
2 ) 2 ( ACF ra suy
) t z var(
2 1
) 1 t a t z cov(
) t a t z cov(
1 ) t z t z cov(
2 1
) t z ) 1 t a ) t a t z 1 ( 1 cov(
) t z ) 1 t a 1 t z 1 cov((
) t z 2 t z cov(
Trang 33không hội tụ do vậy chuỗi sinh ra
từ mô hình AR(1) không dừng
Nếu | 1| 1thì quá trình AR(1) được viết: zt zt1atlà quá trình bước ngẫu nhiên, do vậy chuỗi sinh ra từ quá trình này cũng không dừng
1
diễn như sau:
2 Quá trình tự hồi qui bậc p – AR(p)
Mở rộng quá trình AR(1) được quá trình tự hồi qui bậc p, AR(p), như sau:
taptzp
2t
z21t
z1t
toán tử trễ như sau:
trong đó:
Điều kiện để quá trình AR(p) là hội tụ là 1i 1,i 1 p, Fuller [3] đã chứng tỏ rằng điều kiện đối với các trên tương đương với điều kiện nghiệm của
nghiệm phức, thì các nghiệm đó phải nằm ngoài đường tròn đơn vị
Phương trình đặc trưng:
Đối với AR(1):
Đối với AR(p):
(2.12)
(2.14) (2.13)
(2.15)
j t
a 1 j
j 1 t
pBp
2B2
-B11 )B
0B1
1
0pBp
2B2
-B1
Trang 34Do phương trình bậc p có p nghiệm nên phương trình trên được viết thành:
0)Bp (1)B21)(
B11
đường tròn đơn vị thì quá trình tự hồi qui là quá trình bùng nổ [2]
100
akt
a
2t
a21t
a1
ta)B(t
a)B(
1tz
0 j
|j
giá trị của j sẽ giảm khi j tăng Nếu 1i 1,i 1 pthì trọng số đặt trên các phần dư giảm dần theo thời gian Điều này phù hợp với thực tiễn đó là ảnh hưởng của các yếu tố càng cũ thì càng ít tác động lên giá trị hiện tại
2
,
1
Với dữ liệu chuỗi thời gian có thể được biểu diễn bằng quá trình tự hồi qui AR(p) như trên, vấn đề chính là quyết định xem cấu trúc tự hồi qui nào là phù hợp, sau đó xác định giá trị bậc p cho mô hình Điều này trở nên dễ dàng hơn khi dùng hàm tự tương quan từng phần PACF như là một công cụ trợ giúp cho việc
(2.16)
Trang 35xác định bậc p của quá trình Để xác định PACF của quá trình tự hồi qui bậc p, phương trình (2.13) được viết thành:
ta
p1
zkt
zta[E
p1k
]htz)kt
zkt
)kh(zk)
h
(
z
p1k
]ht
zktz[Ek)
h
(
z
p1k
]htz)kt
zk[(
E]ht
lý do trên VP = 0 Vì thế, phương trình (2.18) được viết gộp lại thành:
1,2,3
h khi 0
p1k
)kh(zi)
h(z
0h khi 2a
p1k
)kh(zi)
0(z
Trang 36PACF được tính trên cơ sở hệ số thu được khi đã tối thiểu hóa sai số bình
1 k
k h t k h
k h t k h
h , , 2 , 1 j 0 ) k j ( a ) j
h 1 i k
Từ phương trình này và với (2.20) thì rõ ràng là với quá trình AR(p), ta có
trình trên
Tính chất của hàm tự tương quan từng phần cho quá trình tự hồi qui AR(p):
tự hồi qui AR có giá trị khác 0 tại các trễ h ≤ p và bằng 0 tại các bậc trễ
h > p, bậc của quá trình tự hồi qui Điều này cho phép ước lượng sơ bộ bậc p của quá trình tự hồi qui AR qua việc sử dụng hàm tự tương quan từng phần PACF
2.1.5.Quá trình trung bình trượt – MA(q)
Quá trình trung bình trượt là quá trình mà giá trị của nó được xác định dựa trên sự kết hợp tuyến tính giữa nhiễu không quan sát được ở hiện tại và các nhiễu trong quá khứ
1 Quá trình trung bình trượt bậc 1 – MA(1)
bằng nhiễu hiện thời cộng với nhiễu ngay trước đó, được biểu diễn như sau:
1t
a1tat
z
được mô tả trên được gọi là quá trình trung bình trượt bậc 1 - MA(1)
(2.21)
Trang 37Các đại lượng đặc trưng của quá trình MA(1):
t
a 1 t
a 1 ( E ) t z (
- Phương sai: var( zt) E [( 1at1 at)2] 12E ( a2t1) 0 E ( a2t ) 2a( 1 12)
- Tự hiệp phương sai và tự tương quan:
1h 1
2a
0h )
211(
2a)
t,ht(z
h
)
211(1
0h 1)h(z
Quá trình MA(1) là quá trình sinh ra chuỗi dừng
2 Quá trình trung bình trượt bậc q - MA(q)
Mở rộng quá trình MA(1) đến bậc q được gọi là quá trình trung bình trượt bậc q, biểu diễn như sau:
qtaq
2t
a21t
a1tat
Trang 38Đại lượng đặc trưng của quá trình trung bình trượt:
- Kỳ vọng:E(zt)0
- Phương sai: var(zt)var(at 1at1 qatq)a2(112 2q)
- Tự hiệp phương sai:
)] q k t a q
1 k t a 1 k t a )(
q t a q
1 t a 1 t a [(
E ) k
Tính chất của hàm tự tương quan ACF cho quá trình trung bình trượt MA(q):
trượt MA có giá trị khác 0 ở các trễ h ≤ q và bằng 0 khi tại các trễ h > q, là bậc của quá trình trung bình trượt
Ngoài tính chất dừng, một tính chất khác cần có của mô hình chuỗi thời gian
đó là tính khả nghịch, nó đảm bảo cho mô hình chuỗi thời gian là có thể hiểu được dễ dàng và cho kết quả dự báo đáng tin cậy Một chuỗi thời gian được gọi là
zt-1…
Quá trình tự hồi qui AR(p) là quá trình khả nghịch
Quá trình MA(1) là quá trình khả nghịch, bởi vì:
1t
a1tzta
1t
a1tatz
Thay vào trên được: at zt 1zt112at2
thực hiện tương tự cuối cùng được: at zt 1zt112zt2
1
0
q k 0
q k ) k
q 0
i i k i
2 a ) k t z , z (
Trang 39Điều kiện để quá trình MA(q) khả nghịch là tất cả các nghiệm hoặc nghiệm
đường tròn đơn vị tương đương với giá trị các hệ số |i |1, i1, ,q
Khi quá trình MA(q) thỏa mãn điều kiện khả nghịch thì nhiễu được thể hiện
100
zk
2t
z21t
z1tz)B()B
vào 1, ,q, được xác định dựa trên phương trình (B)(B)1
2.1.6 Quá trình trung bình trượt tự hồi qui ARMA(p,q)
Quá trình trung bình trượt tự hồi qui là quá trình gộp của hai quá trình trung bình trượt MA(q) và quá trình tự hồi qui AR(p), chuỗi được tạo ra từ quá trình này dựa trên sự kết hợp các giá trị quan sát và các nhiễu trong quá khứ Quá trình này góp thêm vào lớp các mô hình tham số quan trọng để phân tích chuỗi thời gian, nó cải tiến chất lượng của dự báo tốt hơn so với từng mô hình riêng rẽ nhờ
sự kết hợp các ưu điểm của mỗi mô hình trong nó
ta)qBq
2B2
B11(tz)pBp
2B2
-B11
tương đương: (B)zt (B)at
at là nhiễu trắng ~ WN(0, , a2) 1 , plà p hệ số tự hồi qui, 1 , qlà q hệ
số trung bình trượt, đa thức (B)11B2B2- pBpkhông có thừa số chung với đa thức (B)11B2B2 qBq
(2.25)
(2.26)
Trang 40Nếu p = 0 thì quá trình ARMA(p, q) sẽ trở thành quá trình MA(q)
Nếu q = 0 thì quá trình ARMA(p, q) sẽ trở thành quá trình AR(p)
- Điều kiện để phương trình (2.25) tồn tại nghiệm dừng và duy nhất khi và chỉ khi: (B)11B2B2- pBp0
Nhận dạng quá trình ARMA(p,q) qua việc sử dụng tương quan đồ của các ACF và PACF được tóm lược trong bảng dưới đây:
Quá trình tự hồi qui AR(p)
- ARMA(p,0)
Suy giảm theo đồ thị hàm mũ hoặc hình sin
pk 0,kkˆ
pk 0,kkˆ