Trong những năm trước, công cụ để phân tích chuỗi thời gian là sử dụng các công cụ thống kê như hồi quy, phân tích Furie và một vài công cụ khác.Nhưng hiệu quả nhất là mô hình ARIMA của
Trang 3LỜI CẢM ƠN
Trong quá trình nghiên cứu khóa luận"Mô hình ARIMA và ứng
dụng" với sự cố gắng của bản thân và sự giúp đỡ nhiệt tình của các thầy cô
trong tổ Toán ứng dụng, các bạn sinh viên khoa Toán em đã hoàn thành khóa luận này
Em xin chân thành cảm ơn sự giúp đỡ quý báu của các thầy cô trong
tổ Toán ứng dụng, trường đại học sư phạm Hà Nội 2 và các bạn sinh viên
đã tạo điều kiện cho em trong suốt thời gian làm khóa luận
Đặc biệt, em xin bày tỏ lòng biết ơn sâu sắc tới thầy hướng dẫn, Tiến
Trang 4LỜI CAM ĐOAN
Khóa luận này là kết quả của bản thân em trong quá trình học tập và nghiên cứu Bên cạnh đó em được sự quan tâm của các thầy cô trong khoa
Toán Đặc biệt là sự hướng dẫn của thầy: Trần Trọng Nguyên
Trong khi nghiên cứu hoàn thành khóa luận này em có tham khảo một
số tài liệu đã ghi trong phần tài liệu tham khảo
Em xin cam đoan kết quả của khóa luận này không có sự trùng lặp với kết quả của tác giả khác
Hà Nội, ngày 2 tháng 5 năm 2015
Sinh viên
Lương Thị Thoa
Trang 5MỤC LỤC
LỜI MỞ ĐẦU 1
1 Lí do chọn đề tài 1
2 Mục đích nghiên cứu 1
3 Đối tượng và phạm vi nghiên cứu 2
4 Phương pháp và công cụ nghiên cứu 2
5 Khái quát về nội dung và phạm vi nghiên cứu 2
CHƯƠNG 1 KIẾN THỨC CHUẨN BỊ 3
1.1 Biến ngẫu nhiên và quy luật phân phối xác suất 3
1.1.1 Biến ngẫu nhiên một chiều 3
1.1.1.1 Định nghĩa biến ngẫu nhiên 3
1.1.1.2 Hàm phân phối xác suất 3
1.1.2 Biến ngẫu nhiên hai chiều 3
1.1.2.1 Định nghĩa 3
1.1.2.2 Hàm phân phối xác suất 3
1.1.2.3 Sự độc lập của hai biến ngẫu nhiên 4
1.1.3 Biến ngẫu nhiên nhiều chiều 4
1.1.3.1 Định nghĩa 4
1.1.3.2 Hàm phân phối xác suất 4
1.1.3.3 Tính độc lập của nhiều biến ngẫu nhiên 5
1.1.4 Một số đặc trưng của biến ngẫu nhiên 5
1.1.4.1 Kỳ vọng 5
1.1.4.2 Phương sai 6
1.1.4.3 Hiệp phương sai 6
1.1.4.4 Hệ số tương quan 6
1.1.5 Một số quy luật phân phối 7
1.1.5.1 Quy luật phân phối chuẩn 7
Trang 61.1.5.2 Quy luật Khi bình phương 7
1.2 Phân tích hồi quy 8
1.2.1 Mô hình hồi quy tuyến tính hai biến 8
1.2.2 Hàm hồi quy tổng thể 9
1.2.3 Hàm hồi quy mẫu 9
1.2.4 Phương pháp ước lượng OLS 10
1.3 Giới thiệu về chuỗi thời gian và toán tử trễ 11
1.3.1 Chuỗi thời gian 11
1.3.2 Toán tử trễ 12
1.4 Quá trình ngẫu nhiên dừng và không dừng 12
1.5 Hàm tự tương quan và hàm tự tương quan riêng 14
1.5.1 Hàm tự tương quan 14
1.5.2 Hàm tự tương quan riêng 14
1.6 Nhiễu trắng và bước ngẫu nhiên 15
1.6.1 Nhiễu trắng 15
1.6.2 Bước ngẫu nhiên 15
CHƯƠNG 2 MÔ HÌNH ARIMA VÀ ỨNG DỤNG 17
2.1 Mô hình ARIMA 17
2.1.1 Quá trình trung bình trượt (MA) 17
2.1.2 Quá trình tự hồi quy (AR – Autoregressive Process) 17
2.1.3 Quá trình trung bình trượt tự hồi quy ARMA 18
2.1.4 Quá trình trung bình trượt, tích hợp tự hồi quy ARIMA 19
2.1.5 Dự báo 19
2.1.5.1 Dự báo quá trình AR(p) 19
2.1.5.2 Dự báo quá trình MA (q) 20
2.1.5.3 Dự báo quá trình ARMA(p,q) 21
2.1.5.4 Dự báo quá trình ARIMA(p,d,q) 21
Trang 72.1.6 Kiểm định nghiệm đơn vị 22
2.1.7 Phương pháp Box – Jenkins 24
2.1.7.1 Định dạng mô hình – xác định tham số p, d, q 24
2.1.7.2 Ước lượng mô hình 30
2.1.7.3 Kiểm định tính thích hợp của mô hình 32
2.1.7.4 Dự báo và sai số dự báo 35
2.2 Ứng dụng mô hình ARIMA dự báo chỉ số VNINDEX 39
2.2.1 Xây dựng mô hình ARIMA cho chuỗi VNINDEX 39
2.2.2 Ước lượng các tham số của mô hình 42
2.2.3 Kiểm tra sự phù hợp của mô hình 43
2.2.4 Dự báo giá 44
KẾT LUẬN 47
DANH MỤC TÀI LIỆU THAM KHẢO 48
Trang 8LỜI MỞ ĐẦU
1 Lí do chọn đề tài
Chuỗi thời gian đang được sử dụng như một công cụ hữu hiệu để phân tích và dự báo trong kinh tế xã hội cũng như trong nghiên cứu khoa học Chính do tầm quan trọng của phân tích chuỗi thời gian, rất nhiều nghiên cứu đã đề xuất các công cụ để phân tích và dự báo chuỗi thời gian Trong những năm trước, công cụ để phân tích chuỗi thời gian là sử dụng các công
cụ thống kê như hồi quy, phân tích Furie và một vài công cụ khác.Nhưng hiệu quả nhất là mô hình ARIMA của Box-Jenkins Từ các công trình ban đầu về chuỗi thời gian, hiện nay mô hình này đang được dùng rất nhiều để phân tích và dự báo trong các lĩnh vực: kinh tế,tài chính, chứng khoán, giáo dục, thời tiết, dân số,
Nghiên cứu phân tích và dự báo chuỗi thời gian luôn là một bài toán gây được sự chú ý của các nhà toán học, kinh tế, xã hội học,… Các quan sát trong thực tế thường được thu thập dưới dạng chuỗi số liệu Từ những
số liệu này, người ta có thể rút ra được những quy luật của một quá trình được mô tả thông qua chuỗi số liệu
Xuất phát từ thực tế ứng dụng lớn của mô hình ARIMA, em chọn đề tài nghiên cứu về: “MÔ HÌNH ARIMA VÀ ỨNG DỤNG” làm đề tài khóa luận của mình
2 Mục đích nghiên cứu
- Nghiên cứu một số khái niệm và tính chất cơ bản về chuỗi thời gian; các quá trình trung bình trượt (MA),quá trình tự hồi quy (AR), quá trình trung bình trượt tự hồi quy (ARMA)và quá trình trung bình trượt, tích hợp
tự hồi quy (ARIMA)
-Ứng dụng mô hình ARIMA dự báo chuỗi chỉ số VNINDEX với sự
hỗ trợ của phần mềm Eviews
Trang 93 Đối tượng và phạm vi nghiên cứu
- Đối tượng nghiên cứu: Mô hình ARIMA
- Phạm vi nghiên cứu: Mô hình ARIMA, phương pháp Box – Jenkins, ứng dụng trong dự báo chỉ số VNINDEX
4.Phương pháp và công cụ nghiên cứu
- Phương pháp so sánh, phân tích, tổng hợp kiến thức
- Phương pháp phân tích thực nghiệm với dữ liệu thực tế
- Sử dụng phần mềm Excel, Eviews
5.Khái quát về nội dung và phạm vi nghiên cứu
Nội dung của khóa luận này bao gồm 2 chương:
- Chương 1 Kiến thức chuẩn bị: Chương này trình bày một số khái niệm và kiến thức cơ bản sẽ được sử dụng trong chương sau
- Chương 2.Mô hình ARIMA và ứng dụng: Chương này trình bày các lớp mô hình ARIMA và thử nghiệm ứng dụng các mô hình này để dự báo chỉ số VNINDEX
Trang 10CHƯƠNG 1 KIẾN THỨC CHUẨN BỊ 1.1 Biến ngẫu nhiên và quy luật phân phối xác suất
1.1.1 Biến ngẫu nhiên một chiều
1.1.1.1 Định nghĩa biến ngẫu nhiên
Định nghĩa 1.1: Cho (, F, P) là một không gian xác suất Nếu X là một ánh xạ đo được từ vào thì X được gọi là một biến ngẫu nhiên
(hoặc một đại lượng ngẫu nhiên)
cho với mỗi x thì : X x F
1.1.1.2 Hàm phân phối xác suất
Định nghĩa 1.2 Hàm phân phối xác suất của biến ngẫu nhiên X được
ký hiệu và xác định như sau: F x X( )P:X( ) x x,
Như vậy hàm phân bố xác suất là sự thu hẹp của độ đo xác suất P lên
1.1.2 Biến ngẫu nhiên hai chiều
1.1.2.1 Định nghĩa
Định nghĩa 1.3 Cho không gian xác suất (, F, P) và hai biến ngẫu
thì V( ) X( ), ( ) Y
1.1.2.2 Hàm phân phối xác suất
Định nghĩa 1.4 (Hàm phân phối đồng thời) Hàm phân phối xác suất
đồng thời của một biến ngẫu nhiên 2-chiều V ( , )X Y được định nghĩa như sau:
Trang 11
( , )
F x y P X x Y y , ( x y, )
Định nghĩa 1.5 (Các hàm phân phối biên) Nếu F(x,y) là hàm phân
phối xác suất đồng thời của biến ngẫu nhiên 2-chiều V ( , )X Y thì các hàm:
1 2
là các hàm phân phối của các biến ngẫu nhiên thành phần tương ứng X và
1.1.2.3 Sự độc lập của hai biến ngẫu nhiên
Định nghĩa 1.6 Hai biến ngẫu nhiên X và Y được gọi là độc lập với
Định nghĩa 1.7 Cho X X1, 2, ,Xn là các biến ngẫu nhiên 1-chiều
1 2
Ánh xạ lập bởi các biến ngẫu nhiên n X X1, 2, ,Xn được gọi là
một biến ngẫu nhiên n-chiều hoặc một véc-tơ ngẫu nhiên n-chiều
1.1.3.2 Hàm phân phối xác suất
Định nghĩa 1.8 (Hàm phân phối xác suất đồng thời) Hàm phân phối
xác suất đồng thời của biến ngẫu nhiên n-chiều được định nghĩa như sau:
Trang 12Định nghĩa 1.9 (Các hàm phân phối biên)
Hàm phân phối biên của các biến X i và X j và X k
1.1.3.3 Tính độc lập của nhiều biến ngẫu nhiên
Định nghĩa 1.10 Các biến ngẫu nhiên X X1, 2, ,Xn đƣợc gọi là độc lập nếu tại mọi điểm x x1, 2, ,x của n n ta đều có:
Định nghĩa 1.11 (Kỳ vọng toán của biến ngẫu nhiên một chiều) Trên
suất F(x) Kỳ vọng toán của X là một số ký hiệu là E(X) và đƣợc định nghĩa nhƣ sau:
Trang 13Định nghĩa 1.13 Phương sai của biến ngẫu nhiên X được ký hiệu là
V(X) (hoặc var(X)- viết tắt từ tiếng Anh: variance) và được định nghĩa như
Độ lệch chuẩn: Độ lệch chuẩn của biến ngẫu nhiên X ký hiệu là sd(X) hayX :
1.1.4.3.Hiệp phương sai
Định nghĩa 1.14 Hiệp phương sai của hai biến ngẫu nhiên X và Y
được ký hiệu là cov(X,Y) và được định nghĩa như sau:
Hệ số tương quan cho thông tin về mức độ chặt chẽ của mối quan hệ
tuyến tính giữa hai biến, được định nghĩa như sau:
cov( , )( , )
Trang 141.1.5 Một số quy luật phân phối
1.1.5.1 Quy luật phân phối chuẩn
Một biến ngẫu nhiên X được gọi là tuân theo quy luật chuẩn với kỳ vọng ,phương sai 2, ký hiệu là: X N( , 2)nếu nó là biến ngẫu nhiên liên tục với hàm mật độ sau đây:
2 2
22
Quy luật chuẩn hóa N(0,1): Một trường hợp đặc biệt và hữu dụng
trong tính toán của họ các phân phối chuẩn là phân phối chuẩn hóa N(0,1)(là phân phối chuẩn với kì vọng bằng 0 và phương sai bằng 1) Biến ngẫu nhiên tuân theo quy luật chuẩn hóa thường được kí hiệu là U, hàm
độ bởi ( ) x
1.1.5.2 Quy luật Khi bình phương
trực tiếp với quy luật chuẩn và được xác định như sau:
X U U U
theo quy luật chuẩn hóa, khi đó X tuân theo quy luật Khi bình phương với
k bậc tự do
Có thể thấy rằng biến ngẫu nhiên tuân theo quy luật Khi bình phương chỉ nhận giá trị không âm và hàm mật độ của nó là không đối xứng
Trang 151.2 Phân tích hồi quy
1.2.1 Mô hình hồi quy tuyến tính hai biến
Giả sử X và Y là hai biến của một tổng thể nào đó, mô hình hồi quy tuyến tính hai biến thể hiện mối quan hệ phụ thuộc giữa biến Y và biến X
- Biến phụ thuộc: là biến số mà ta đang quan tâm đến giá trị của nó,
thường được kí hiệu là Y và nằm ở vế trái của phương trình Biến phụ
thuộc còn được gọi là biến được giải thích (explained variable) hay biến
phản ứng
- Biến độc lập: là biến số được cho là có tác động đến biến phụ thuộc,
thường được kí hiệu là X và nằm ở vế bên phải của phương trình Biến độc
lập còn được gọi là biến giải thích (explanatory variable) hay biến điều
khiển (control variable)
Sai số ngẫu nhiên,thường được ký hiệu là u, là yếu tố đại diện cho các yếu tố có tác động đến biến Y, ngoài X Trong mô hình (1.1) chúng ta không có quan sát về nó, vì thế đôi khi u còn được gọi là sai số ngẫu nhiên không quan sát được Do đó, để hàm hồi quy có ý nghĩa cần đưa ra giả thiết cho thành phần này Giả thiết được đưa ra là: tại mỗi giá trị của X thì kỳ vọng của u bằng 0: E u x 0
và Y khi các yếu tố bao trùm trong u là không đổi
Trang 16gọi là kỳ vọng của Y với điều kiện X
Phương trình (1.2) biểu diễn kỳ vọng của Y với điều kiện X như một hàm của biến X và do X và Y thể hiện cho tổng thể nên phương trình (1.2) còn được gọi là hàm hồi quy tổng thể (PRF – population regression
của tổng thể, có ý nghĩa như sau:
Các hệ số hồi quy:
phụ thuộc Y khi biến độc lập X nhận giá trị bằng 0
trung bình của biến phụ thuộc: khi biến độc lập X tăng (giảm) một đơn vị
thể nhận giá trịdương, âm hoặc bằng 0
1.2.3 Hàm hồi quy mẫu
Giả sử có mẫu ngẫu nhiên kích thước n bao gồm các quan sát của biến
các ước lượng cho các hệ số hồi quy tổng thể 1 và 2, ký hiệu là
1 và 2
cho hàm hồi quy tổng thể (1.1):
1 2
Trang 17Hay có thể viết chi tiết cho từng quan sát như sau:
cơ sở khi đánh giá chất lượng của ước lượng thu được từ các phương pháp khác
Để tìm hiểu phương pháp OLS, ta xét mô hình hồi quy tổng thể:
mẫu trên, khi đó ta có thể viết thành hàm hồi quy mẫu như sau:
1 2
Trang 18Gọi sai lệch giữa các giá trị thực tế Yi và giá trị ước lượng tương ứng
từ hàm hồi quy mẫu Y là phần dư (residuals), ký hiệu bởi e i i:
giữa các giá trị thực tế Yi và các giá trị ước lượng tương ứng từ hàm hồi quy mẫu (1.4) là nhỏ nhất có thể được Sai lệch này có thể được định nghĩa bởi:
(1) Tổng các phần dư
1
n i i
e
Trong phạm vi khóa luận này chúng ta sẽ sử dụng phần mềm Eviews
để hỗ trợ cho việc xác định các ước lượng OLS
1.3.Giới thiệu về chuỗi thời gian và toán tử trễ
1.3.1 Chuỗi thời gian
Chuỗi thời gian là dãy các quan sát về một biến số nào đó theo thời gian Thường việc thu thập số liệu bắt đầu ở một thời điểm nhất định, chẳng hạn t=1 và kết thúc ở một thời điểm khác t=n:( , ,Y Y1 2 ,Y n)
Có thể tìm được các quan sát (Y Y Y2, 1, )0 hoặc các quan sát sau thứ
Trang 19Yt = Pt là giá một loại /cổ phiếu ở thời điểm t;
Giả sử có chuỗi {X }t bây giờ ta tạo ra chuỗi mới Y t , Y t X t1
Ký hiệu Y t LX t X t1 L đƣợc gọi là toán tử trễ
1.4.Quá trình ngẫu nhiên dừng và không dừng
điểm kế tiếp nhau Nói chung mỗi biến có một quy luật phân bố xác suất
Trang 20mỗi thời điểm, biến số tương ứng nhận một giá trị cụ thể Khi đó ta có một chuỗi thời gian Mặc dù chuỗi thời gian chỉ là một phép thử của một quá trình ngẫu nhiên, nhưng chúng ta cũng gọi chuỗi thời gian là một quá trình
E(Yt), Var(Yt) là kỳ vọng và phương sai của Yt, có thể Cov(Yi, Yj) ≠
không giống nhau
không đổi theo thời gian (Engle và Granger, 1987), nghĩa là:
hàm tự tương quan AFC,
( )
ar( )
t t k k
t
Cov Y Y ACF k
V Y
Điều kiện thứ ba trong định nghĩa chuỗi dừng có nghĩa là hiệp phương
thời gian giữa t và t+k, không phụ thuộc vào thời điểm t Chẳng hạn:
Trang 211.5 Hàm tự tương quan và hàm tự tương quan riêng
Trong mô hình hồi quy tuyến tính cổ điển, ta giả định rằng không có
Cov u u (i j)Nói một cách khác, mô hình cổ điển giả định rằng sai số ứng với quan sát nào đó không bị ảnh hưởng bởi sai số ứng với quan sát khác
Tuy nhiên trong thực tế có thể xảy ra hiện tượng mà sai số của các quan sát lại phụ thuộc nhau, nghĩa là:
Cov u u (i j)khi đó xảy ra hiện tượng tự tương quan
Hàm tự tương quan (ACF) với độ trễ k, kí hiệu bằng k, được xác định như sau:
Cov( , ) ( )
ar( )
t t k k
t
Y Y ACF k
1.5.2 Hàm tự tương quan riêng
tính đến ảnh hưởng của các quan hệ trung gian Yt-1, Yt-2, ,Yt-k-1 thì ρkk là
hệ số tương quan có điều kiện
kk C Y Y t t k Y t Y t Y t k
Trang 221.6.Nhiễu trắng và bước ngẫu nhiên
1.6.1 Nhiễu trắng
có kì vọng bằng 0, phương sai không đổi và không tự tương quan, tức là:
Đôi khi điều kiện (1.12) được thay thế bằng điều kiện mạnh hơn:
Quá trình thỏa mãn (1.10), (1.11) và (1.13) được gọi là nhiễu trắng độc lập Nếu các điều kiện (1.10), (1.11) và (1.13) được thỏa mãn và
Chú ý rằng từ (1.13) suy ra (1.12), điều ngược lại sẽ không đúng Nhiễu trắng là một chuỗi dừng
Trang 23Do Y0 là hằng số, các ut không tương quan với nhau, có phương sai
Sai phân bậc nhất của Yt: Y t Y t Y t1 u t Trong trường hợp này
t
Y
là chuỗi dừng Dùng toán tử trễ L, ta có Y t (1 L Y ) t
gọi là bước ngẫu nhiên có bụi (random walk with drift)
Trang 24CHƯƠNG 2 MÔ HÌNH ARIMAVÀ ỨNG DỤNG
2.1 Mô hình ARIMA
2.1.1 Quá trình trung bình trượt (MA)
Yt là quá trình trung bình trượt bậc q, nếu Yt có dạng:
Với bất kỳ các giá trị của (θ1, θ2, … , θq) thì các MA(q) đều là các quá
trình dừng Điều kiện (1.12) được thỏa mãn
q
2.1.2 Quá trình tự hồi quy (AR – Autoregressive Process)
Quá trình tự hồi quy bậc p có dạng:
Trang 251 2
1z z p z p 0,
có thể viết lại: (11z)(12z)(1p z)0
Với phương trình trên điều kiện dừng tương đương với điều kiện tất cả
2.1.3 Quá trình trung bình trượt tự hồi quy ARMA
Cơ chế sản sinh ra Y không chỉ là AR hoặc MA mà có thể kết hợp cả hai yếu tố này Khi kết hợp cả hai yếu tố, mô hình được gọi là mô hình trung bình trượt tích hợp tự hồi quy ARMA Yt là quá trình ARMA(1,1) nếu Y có thể biểu diễn dưới dạng:
Trang 262.1.4.Quá trình trung bình trượt, tích hợp tự hồi quy ARIMA
Một chuỗi thời gian có thể dừng hoặc không dừng Chuỗi không dừng được gọi là tích hợp bậc 1, được kí hiệu là I(1), nếu sai phân bậc nhất là chuỗi dừng Chuỗi được gọi là tích hợp bậc d, nếu sai phân bậc d là chuỗi dừng, ký hiệu là I(d) Nếu d = 0 thì chuỗi xuất phát là chuỗi dừng
sai phân bậc d thì có quá trình ARIMA(p,d,q) Trong ARIMA(p,d,q), d là
là bậc trung bình trượt, p và q là bậc tương ứng của chuỗi dừng
AR(p) là trường hợp đặc biệt của ARIMA(p,d,q) với d = 0, q = 0 MA(q)
là trường hợp đặc biệt của ARIMA(p,d,q) với d = 0 và p =0
sai phân dừng này có thể biễu diễn dưới dạng ARMA(2,2):
2.1.5.1 Dự báo quá trình AR(p)
Yt là quá trình tự hồi quy bậc p, Yt có dạng: