Trong luận văn tập trung sử dụng chuỗi thời gian trong quá khứ, dùng mô hình ARIMA của Box – Jenkins với phương pháp hồi quy AR AutoRegressive và Mô hình trung bình trượt Moving Average
Trang 1Họ và tên : Trần Văn Tâm Em Sinh viên Khoa CNTT – Trường ĐH lạc Hồng Ngày tháng năm sinh : 06/09/1972
Cơ quan đang làm việc : Tín Nghĩa Corp.
Trang 2Tên đề tài:
Nghiên cứu ứng dụng chuổi thời
gian trong việc dự báo kinh
doanh xăng dầu.
Tên đề tài
Trang 3Dựa vào dữ liệu theo chuổi thời gian - time series và xây dựng mô hình ước lượng dữ liệu, dự báo giá trị tương lai và áp dụng cho bài toán dự báo sản lượng tiêu thụ xăng dầu Trong luận văn tập trung sử dụng chuỗi thời gian trong quá khứ, dùng mô hình ARIMA của Box – Jenkins với phương pháp hồi quy AR
(AutoRegressive) và Mô hình trung bình trượt
(Moving Average), Áp dụng hàm tự tương quan
-ACF (AutoCorrelation Function) và hàm tự tương quan riêng phần - PACF (Patial AutoCorrelation Function) để giải quyết bài toán mô phỏng việc dự báo sản lương tiêu thụ xăng dầu trong tương lai
Trang 51.1 Giới thiệu về lịch sử quá trình dự báo
1.2 Đặc điểm của dự báo
1.3 Các loại dự báo
1.3.1 Căn cứ vào độ dài thời gian dự báo
1.3.2 Dựa vào các phương pháp dự báo:
1.3.3 Căn cứ vào đối tượng dự báo
1.4 Các nghiên cứu liên quan & Lý do chọn đề tài 1.5 Mục tiêu của luận văn.
Trang 62 Cơ sở lý thuyết.
2.1 Dãy số thời gian.
2.2 Tương quan (Correlation ) và hàm tự tương quan ACF (AutoCorrelation Function).
2.2.1 Tương quan (Correlation )
2.2.2 hàm tự tương quan ACF (AutoCorrelation Function).
2.3 Hàm tự tương quan riêng phần PACF (Partial
AutoCorrelation Function) 2.4 Nhận dạng các mô hình
2.4.1 Mô hình tự hồi qui bậc p (Auto Regression)
-AR(P) 2.4.2 Mô hình trung bình trượt bậc q (Moving
Average) - MA(q) 2.4.3 Mô hình ARMA(p,q)
2.4.4 Các bước thực hiện của phương pháp Box - Jenkins
Trang 7Dãy số thời gian là dãy số các trị số của chỉ tiêu thống
kê được sắp xếp theo thứ tự thời gian Mỗi dãy số thời gian có hai thành phần:
1 Thời gian: có thể là ngày, tuần, tháng, quí, năm,
Độ dài giữa hai thời gian liền nhau được gọi là khoảng cách thời gian.
2 Chỉ tiêu về hiện tượng nghiên cứu: chỉ tiêu này
có thể là số tuyệt đối, số tương đối, số bình quân Trị số của chỉ tiêu còn gọi là mức độ của dãy số
Trang 8Phân loại dãy số thời gian:
1 Dãy số thời kỳ: là dãy số biểu hiện mặt lượng của hiện tượng qua
từng thời kỳ nhất định Muốn tính mức độ bình quân: ta cộng các mức độ trong dãy số rồi chia cho số các mức độ, tức là:
Trong đó:
yi (i = 1,…, n): các mức độ của dãy số thời kỳ
n: số mức độ của dãy số
2 Dãy số thời điểm: là loại dãy số biểu hiện mặt lượng của hiện
tượng qua các thời điểm nhất định Dãy số có khoảng cách thời gian bằng nhau thì mức độ trung bình được tính như sau:
Trang 9Sản lượng / Năm 2002 2003 2004 2005 2006 Sản lượng bán ra (triệu lít) 19 54 81 90 95
Trang 10Đối với dãy số thời điểm: Dãy số có khoảng cách thời gian bằng nhau
Sản lượng / Năm 2002 2003 2004 2005 2006 Sản lượng bán ra (triệu lít) 19 54 81 90 95
* Yi (i = 1,…, n): các mức độ của dãy số thời điểm
* n: số mức độ của dãy số
Vd:
Y = (19/2 +54+81+90+95/2)/(5-1)
y= (y1 /2 + y2 + y3 + … + yn-1 + yn / 2) / (n -1)
Trang 11i i
* yi (i=1,2,3, , n): các mức độ của dãy số thời điểm
* ti (i=1,2, , n): độ dài của các khoảng cách thời gian
Trang 12Vd: Đối với dãy số thời điểm: Sản lượng bán ra quí 1 năm 2010 như sau:
Ngày (thời điểm) 1-1 20-1 15-2 10-3 Sản lượng (ngàn lít) 400 600 500 700
Trang 13Hệ số tương quan của hai đại lượng ngẫu nhiên X và Y, ký hiệu là r XY là số được xác định như sau:
với S X, S Y là độ lệch tiêu chuẩn của X, Y.
Ý nghĩa của hệ số tương quan:
Hê số tương quan đo mức độ phụ thuộc tuyến tính giữa X và Y Khi r XY càng gần 1 thì mối quan hệ tuyến tính càng chặt, khi r XY càng gần 0 thì quan hệ tuyến tính càng lỏng lẻo.
Ước lượng hệ số tương quan:
2.2.1 Tương quan (Correlation)
Trang 14Ước lượng hệ số tương quan:
•Lập mẫu ngẫu nhiên WXY = [(X1,Y1), (X2,Y2), …,(Xn,Yn)]
•Để ước lượng hệ số tương quan
Ta sử dụng thống kê
2.2 Tương quan (Correlation) và Hàm tự tương quan
ACF(AutoCorrelation Function) 2.2.1 Tương quan – Correlation (tt)
Y X
XY
S S
Y E X E XY
E r
.
) ( ).
( )
=
Y
X S S
Y X XY
Trang 15Ước lượng hệ số tương quan:
Với mẫu cụ thể ta tính được ta tính được giá trị của R là
2.2.1 Tương quan – Correlation (tt)
Trong đó:
Y
X S S
Y X XY R
Trang 16Tính chất của hệ số tương quan
Hê số tương quan
được dùng để đánh giá mức độ chặt chẻ của sự phụ thuộc tương quan tuyến tính giữa hai đại lượng ngẫu nhiên X và Y có các tính chất như sau:
2.2 Tương quan (Correlation) và Hàm tự tương quan
ACF(AutoCorrelation Function) 2.2.1 Tương quan – Correlation (tt)
Y
X S S
y x xy r
•Nếu |r| =1 thì X và Y có quan hệ tuyến tính
•Nếu |r| càng lớn thì sự phụ thuộc tương quan tuyến tính giữa X
Trang 17Ví dụ:
2.2.1 Tương quan – Correlation (tt)
Hệ số tương quan của X
và Y là
Trang 18Tự tương quan có thể được định nghĩa là sự tương quan giữa các thành phần của chuỗi các quan sát được sắp xếp theo thứ tự thời gian hay không gian
Hàm tự tương quan do lường phụ thuộc tuyến tính giữa các cặp quan sát y(t) và y(t+k) Với độ trễ k =1,2, hàm tương tự quan tại
độ trễ k được xác định qua độ lệch giữa các biến ngẫu nhiên y(t)
và y(t+k) so với giá trị trung bình và được chuẩn hóa qua phương sai (variance).
2.2 Tương quan (Correlation) và Hàm tự tương quan
ACF(AutoCorrelation Function)
2.2.2 Hàm tự tương quan ACF(AutoCorrelation Function)
Trang 19Giả sử các biến ngẫu nhiên trong chuỗi dừng thay đổi quanh giá trị trung bình μ với phương sai σ2 Khi đó, hàm tương tự quan tại các độ trễ khác nhau sẽ có giá trị khác nhau
Trong thực tế ta có thể ước lượng hàm tự tương quan tại độ trễ
k qua phép biến đổi trung bình của tất cả các cặp quan sát, phân biệt bằng độ trễ k Với giá trị trung bình mẫu là μ, được chuẩn hóa bởi phương sai σ2 Cho chuỗi N điểm, giá trị rk của hàm tương tự quan tại độ trễ k được tính như sau:
Trang 20yt: dữ liệu chuỗi thời gian dừng tại thời điểm t
yt+k : dữ liệu chuỗi thời gian dừng tại thời điểm t +k
μ : giá trị trung bình của chuỗi thời gian dừng.
rk : giá trị tương quan giữa yt và yt+k tại độ trễ k.
r =0 thì không có hiện tượng tự quan, Trong đó
2.2 Hàm tự tương quan ACF (AutoCorrelation Function) (tt)
Trang 21Tính rk cho các độ trễ k =1, 2, 3, …, sau đó vẽ biểu đồ ACF của mẫu dữ liệu Biểu đồ có công dụng xác định xem xét hiện tượng dừng của chuỗi để nhận dạng mô hình ARIMA dự định
-Tính Hàm tự tương quan tại độ trễ k
ok =0, có giá trị 1 (hàm tự tương quan với chính nó)
ok=1, có giá trị là – 0.48 (mô tả hàm tự tương quan tại
độ trễ thứ 1 dao trung bình giữa các quan sát liên tục
“42 và 59; 59 và 35; 35 và 66; 66 và 37; 37 và 58…”)
o…
- Áp dụng tương tự cho các độ trễ khác
Trang 222.2 Hàm tự tương quan ACF (AutoCorrelation Function) (tt)
Trang 23Đ ể kiểm định có phải là mô hình AR hay không hoặc r k =0 theo ý ngh ĩa thống kê, ta sử dụng kiểm định cho những mẫu lớn khi n khá
l ớn, các hệ số r k s ẽ gần như tuân theo phân phối chuẩn và có μ = 0,
phương sai (variance) đư ợc xác định theo công thức:
)]
( 2 1
[
1
2 3
2 2
Trang 242.2 Hàm tự tương quan ACF (AutoCorrelation Function) (tt)
Nếu chúng ta muốn kiểm pk ở mức ý nghĩa 5%, ta sử dụng giá trị tới hạn là 2 để so sánh với thống kê khi kiểm tra các giả thiết:
2
2 1
1
j
k
r n
r t
∑ +
=
H0 : p(k) = 0
Ha : p(k) ≠ 0Trong đó
k = độ trễ
n = số lần quan sát
j = 1,2,….k-1 (j<k)Nếu t<2 thì ta sẽ không có AR (Pk < 0)
Trang 25Nếu chúng ta muốn kiểm pk ở mức ý nghĩa 5%, ta sử dụng giá trị tới hạn là 2 để so sánh với thống kê khi kiểm tra các giả thiết:
2
2 1
1
j
k
r n
r t
∑ +
=
H0 : p(k) = 0
Ha : p(k) ≠ 0Trong đó
k = độ trễ
n = số lần quan sát
j = 1,2,….k-1 (j<k)Nếu t<2 thì ta sẽ không có AR (Pk < 0)
Trang 262.2.3 Hàm tự tương quan riêng phần PACF(Partial
Theo phần trên với việc xác định hàm tương quan giữa cặp y(t) vày(t+k), ta xác định hàm tự tương quan riêng phần đến các quan sát y(t+1), …, y(t+k-1) Hàm tự tương quan riêng phần tại độ trễ K Ckk được ước lượng bằng hệ số liên hệ y(t) trong mối kết hợp tuyến tính bên dưới Sự kết hợp được tính dựa trên tầm ảnh hưởng của y(t) vàcác giá trị trung gian y(t+k)
Trang 27Y(t+k) = Ck1 y(t+k-1) + Ck2 y(t+k-2)+,…+Ckk y(t+1) + Ckky(t) + e(t)
Giải phương trình hồi qui dựa trên bình phương tối thiểu (oridinary least square) vì hệ số hồi quy Ckj phải được tính ở mỗi độ trễ k, với j chạy từ 1 đến k
Giải pháp dùng xấp xỉ đệ quy hệ số hồi quy cho mô hình ARIMA chuỗi dừng (do Durbin phát triển), sử dụng giá trị hàm tự tương quan tại dộ trễ k rk và hệ số hồi quy của độ trễ trước Phương pháp
sử dụng 3 độ trễ đầu tiên :
Trang 282.2.3 Hàm tự tương quan riêng phần PACF(Partial
AutoCorrelation Function)
- Độ trễ 1 : khởi tạo, giá trị của hàm tự tương quan riêng phần tại độ trễ 1
có cùng giá trị với hàm tự tương quan tại độ trễ 1 vì không có các giá trịtrung gian giữa các quan sát kế tiếp : C11 :r1
- Độ trễ 2 : Hai giá trị C22 và C21 được tính dựa vào hàm tự tương quan r2
và r1, cùng với hàm tự tương quan riêng phần trước đó
11 22 11
21
1 11
1 11
2 22
1
C C C
C
r C
r C
r C
- Độ trễ 3: Tương tự, ba giá trị C33, C32 và C31 được tính dựa vào hàm
tự tương quan trước r3, r2, r1 cùng với các hệ số được tính ở độ trễ thứ2: C22 và C21
Trang 29- Tổng quát, Hàm tự tương quan riêng phần PACF được tính như sau:
21 33 22
31
22 33 21
32
1 21 2
22
1 22 2
21 3
33
1
C C C
C
C C C
C
r C r
C
r C r
C
r C
j k j k k
kk
r C
r C
r C
) (
1
) (
, 1
, 1
rk: hàm tự tương quan tại độ trễ k
Ckj: hàm tự tương quan riêng phần cho độ trễ k, loại bỏ những
ảnh hưởng các độ trễ can thiệp j
Ckj = Ck-1,j –(Ckk).(Ck-1,k-j)
Trong đó:
Trang 302.2.3 Hàm tự tương quan riêng phần PACF(Partial
tự tương quan và tự tương quan riêng phần với N/4 độ trễ, giá trị tối thiểu của N là 50
n
C v
Trang 31Tóm lại, hàm tự tương quan ACF và hàm tự tương quan riêng phần
PACF của chuỗi thời gian có đặc tính khác nhau Hàm tự tương quan ACF đo mức độ phụ thuộc tuyến tính giữa các cặp quan sát cón hàm PACF đo mức độ phụ thuộc tuyến tính từng phần ARIMA sử dụng 2 đặc tính này để xác định cấu trúc mô hình cho chuỗi thời gian được
thực hiện trong luận văn này
Tại độ trễ thứ 1, giá trị hàm tự tương quan riêng phần PACF chính là giátrị hàm tự tương quan ACF Giá trị âm cho thấy hệ số âm giữa các
khoảng thời gian kề nhau
Trang 322.2.3 Hàm tự tương quan riêng phần PACF(Partial
AutoCorrelation Function)
Trang 33Xu hướng vận động của hàm tự tương quan riêng phần PACF có thểgiảm đột ngột (thường sau độ trễ 1 hoặc độ trễ 2) hay có thể giảm đều (dying down) Cũng giống như hàm tự tương quan ACF, xu hướng giảm đều của hàm tự tương quan riêng phần PACF cũng có dạng như sau:
•Dạng phân phối mẫu (hình 1.3a và 1.3b)
•Dạng hình sin (hình1.3c)
•Kết hợp cả 2
Trang 342.2.3 Hàm tự tương quan riêng phần PACF(Partial
AutoCorrelation Function)
Trang 362.4.1 Mô hình tự hồi qui bậc p (Auto Regression)
-AR(P)
Mô hình này sẽ thực hiện theo dạng hội qui trên chính số liệu của nó
ở những chu kỳ trước Có công thức tổng quát sau:
y(t) = a0 + a1y(t-1) + a2y(t-2)+…+ apy(t-p) + e(t)
y(t): quan sát dừng hiện tại.
y(t-1), y(t-2),… : quan sát dừng quá khứ
a 0 , a 1 , a 2 , …,a p : các tham số phân tích hồi qui.
e(t) : Sai số dự báo ngẫu nhiên của giai đoạn hiện tại (giá trị trung bình được mong đợi bằng 0)
Trong đó :
Trang 37y(t) là một hàm tuyến tính của những quan sát dừng quá khứ 1), 2), …Nói cách khác, khi sử dụng phân tích hồi qui y(t) theo các giá trị
y(t-chuỗi thời gian dừng có độ trễ, chúng ta sẽ được mô hình AR (yếu tố xu thế đã được tách khỏi yếu tố thời gian, ta chỉ tập trung mô hình hóa
những yếu tố còn lại đó là sai số).
Nếu sử dụng mô hình hàm tự tương quan ACF là bậc p của mô hình
AR Nếu sử dụng hai quan sát dừng trong quá khứ, ta có mô hình tương quan bậc 2 là AR(2)
Điều kiện dừng là tổng các tham số hồi quy nhỏ hơn 1
(a0 + a1 + a2 +…+ ap < 1)
Mô hình AR(1) : y(t) = a0 + a1y(t-1) + e(t)
Mô hình AR(2) : y(t) = a0 + a1y(t-1) + a2y(t-2) + e(t)
Trang 382.4.2 Mô hình trung bình trượt bậc q (Moving
Average) - MA(q)
Quan sát dừng hiện tại y(t) là một hàm tuyến tính phụ thuộc
các biến sai số dự báo quá khứ và hiện tại Mô hình bình quân di động là một trung bình trọng số của những sai số mới nhất.
y(t) = b 0 + e(t) + b 1 e(t-1) + b 2 e(t-2) + …+ b q e(t-q).
Trong đó :
y(t) : quan sát dừng hiện tại
e(t) : sai số dự báo ngẫu nhiên, giá trị của nó không được biết
và giá trị trung bình của nó là 0
e(t-1), e(t-2), … : sai số dự báo trong quá khứ (thông thường sửdụng không quá 2 biến này)
b0, b1, b2,… : giá trị trung bình của y(t) và các hệ số bình quân di động
q : sai số quá khứ được dùng trong mô hình bình quân di động, nếu sử dụng 2 sai số quá khứ thì sẽ có mô hình bình quân di động bậc hai là MA(2)
Trang 39Điều kiền cần là tổng các hệ số bình quân di động phải nhỏ hơn 1
(b1 + b2 +…+ bq< 1)
Mô hình MA(1) : y(t) = b 0 + e(t) + b 1 e(t-1)
Mô hình MA(2) : y(t) = b 0 + e(t) + b 1 e(t-1) + b 2 e(t-2)
Trang 402.4.3 Mô hình ARMA(p,q)
Mô hình này là mô hình hổn hợp hai mô hình trên (AR, MA)
Hàm tuyến tính sẽ bao gồm những quan sát dừng quá khứ và
những sai số dự báo quá khứ và hiện tại:
y(t) = a 0 + a 1 y(t-1) + a 2 y(t-2)+…+ a p y(t-p) + e(t) + b 0 + e(t) +
b 1 e(t-1) + b 2 e(t-2) + …+ b q e(t-q).
y(t) : quan sát dừng hiện tại
y(t-p) và e(t-q) : quan sát dừng và sai số dự báo quá khứ
e(t-1), e(t-2), … : sai số dự báo trong quá khứ (thông thường sửdụng không quá 2 biến này)
a0 , a1, a2, … ; b0, b1, b2,… : các hệ số phân tích hồi qui
Trong đó :
Trang 41Nếu ta nói ARMA (1,2) tức là mô hình hỗn hợp của AR(1) và
MA(2) Đối với mô hình hỗn hợp thì dạng (p,q)= (1,1) là phổ biến Tuy nhiên, giá trị p,q được xem là những độ trễ cho ACF và PACF quan trọng sau cùng Cả hai điều kiện dừng phải thỏa mãn trong
mô hình hỗn hợp ARMA
Trang 422.4.4 Mô hình ARIMA(p,d,q) - Autoregressive
integrated moving average
Mô hình ARIMA (p,d.q) do Box – Jenkins đề xuất chỉ mô tả tính dừng vànhững chuỗi đã sai phân hóa, nên mô hình ARIMA (p,d,q) thể hiện những chuỗi dữ liệu không dừng, đã được sai phân Trong đó: d chỉ mức độ sai phân
Khi chuỗi thời gian dừng được chọn thì hàm tự tương quan ACF giảm đột biến hoặc giảm đều nhan, chúng ta có thể chỉ ra một mô hình dự định bằng các nghiên cứu xu hướng của hàm tự tương quan ACF và hàm tự tương quan riêng phần PACF
Trang 43Tóm lại để nhận dạng mô hình ARIMA(p,d,q) là tìm các giá trị thích hợp của p, d, q Với d là bậc sai phân của chuỗi thời gian được khảo sát, p làbậc tự hồi qui và q là bậc trung bình trượt Việc xác định p và q sẽ phụthuộc vào các đồ thị hàm tự tương quan và tự tương quan riêng phần
trễ q = 1, 2
Giảm đều theo dạng
mũ hay dao động lên xuống
mũ hay dao động lên xuống
Giảm đột ngột sau độtrễ p = 1, 2
ARMA (p,q) Giảm đều theo dạng
mũ hay dao động lên xuống
Giảm đều theo dạng
mũ hay dao động lên xuống
Trang 45Với phương pháp này sẽ có một số bước chung như :
1 Nhận dạng (indentification)
2 Ước lương (estimation)
3 Kiểm định độ chính xác (diagostic checking)
4 Dự báo (forecasting)
Nhận dạng : Yếu tố xu thế sẽ được tách khỏi dữ liệu (bằng các lấy
sai phân bâc 1 hay bậc 2 của dữ liệu) và sau đó nhận dạng mô hình
dự định như phần trên đã trình bày theo dạng AR, MA hay ARMA
Phương pháp nhận dạng thường được thực hiện qua nghiên cứu
theo chiều hướng biến đổi hàm tự tương quan ACF hay hàm tự
tương quan riêng phần PACF
Ước lượng : Chúng ta tính những ước lượng khởi đầu cho những
tham số của mô hình dự định, sau đó xây dựng những ước lượng sau cùng bằng mô hình bằng một quá trình lặp Mặc dù, theo những công thức để tính những ước lượng ban đầu, nhưng một cách đơn giản chúng ta cho ước lượng các hệ số của phương trình tổng quát