Nghiên cứu ứng dụng chuỗi thời gian trong việc dự báo kinh doanh xăng dầu

Trong luận văn tập trung sử dụng chuỗi thời gian trong quá khứ, dùng mô hình ARIMA của Box – Jenkins với phương pháp hồi quy AR AutoRegressive và Mô hình trung bình trượt Moving Average

Trang 1

Họ và tên : Trần Văn Tâm Em Sinh viên Khoa CNTT – Trường ĐH lạc Hồng Ngày tháng năm sinh : 06/09/1972

Cơ quan đang làm việc : Tín Nghĩa Corp.

Trang 2

Tên đề tài:

Nghiên cứu ứng dụng chuổi thời

gian trong việc dự báo kinh

doanh xăng dầu.

Tên đề tài

Trang 3

Dựa vào dữ liệu theo chuổi thời gian - time series và xây dựng mô hình ước lượng dữ liệu, dự báo giá trị tương lai và áp dụng cho bài toán dự báo sản lượng tiêu thụ xăng dầu Trong luận văn tập trung sử dụng chuỗi thời gian trong quá khứ, dùng mô hình ARIMA của Box – Jenkins với phương pháp hồi quy AR

(AutoRegressive) và Mô hình trung bình trượt

(Moving Average), Áp dụng hàm tự tương quan

-ACF (AutoCorrelation Function) và hàm tự tương quan riêng phần - PACF (Patial AutoCorrelation Function) để giải quyết bài toán mô phỏng việc dự báo sản lương tiêu thụ xăng dầu trong tương lai

Trang 5

1.1 Giới thiệu về lịch sử quá trình dự báo

1.2 Đặc điểm của dự báo

1.3 Các loại dự báo

1.3.1 Căn cứ vào độ dài thời gian dự báo

1.3.2 Dựa vào các phương pháp dự báo:

1.3.3 Căn cứ vào đối tượng dự báo

1.4 Các nghiên cứu liên quan & Lý do chọn đề tài 1.5 Mục tiêu của luận văn.

Trang 6

2 Cơ sở lý thuyết.

2.1 Dãy số thời gian.

2.2 Tương quan (Correlation ) và hàm tự tương quan ACF (AutoCorrelation Function).

2.2.1 Tương quan (Correlation )

2.2.2 hàm tự tương quan ACF (AutoCorrelation Function).

2.3 Hàm tự tương quan riêng phần PACF (Partial

AutoCorrelation Function) 2.4 Nhận dạng các mô hình

2.4.1 Mô hình tự hồi qui bậc p (Auto Regression)

-AR(P) 2.4.2 Mô hình trung bình trượt bậc q (Moving

Average) - MA(q) 2.4.3 Mô hình ARMA(p,q)

2.4.4 Các bước thực hiện của phương pháp Box - Jenkins

Trang 7

Dãy số thời gian là dãy số các trị số của chỉ tiêu thống

kê được sắp xếp theo thứ tự thời gian Mỗi dãy số thời gian có hai thành phần:

1 Thời gian: có thể là ngày, tuần, tháng, quí, năm,

Độ dài giữa hai thời gian liền nhau được gọi là khoảng cách thời gian.

2 Chỉ tiêu về hiện tượng nghiên cứu: chỉ tiêu này

có thể là số tuyệt đối, số tương đối, số bình quân Trị số của chỉ tiêu còn gọi là mức độ của dãy số

Trang 8

Phân loại dãy số thời gian:

1 Dãy số thời kỳ: là dãy số biểu hiện mặt lượng của hiện tượng qua

từng thời kỳ nhất định Muốn tính mức độ bình quân: ta cộng các mức độ trong dãy số rồi chia cho số các mức độ, tức là:

Trong đó:

yi (i = 1,…, n): các mức độ của dãy số thời kỳ

n: số mức độ của dãy số

2 Dãy số thời điểm: là loại dãy số biểu hiện mặt lượng của hiện

tượng qua các thời điểm nhất định Dãy số có khoảng cách thời gian bằng nhau thì mức độ trung bình được tính như sau:

Trang 9

Sản lượng / Năm 2002 2003 2004 2005 2006 Sản lượng bán ra (triệu lít) 19 54 81 90 95

Trang 10

Đối với dãy số thời điểm: Dãy số có khoảng cách thời gian bằng nhau

Sản lượng / Năm 2002 2003 2004 2005 2006 Sản lượng bán ra (triệu lít) 19 54 81 90 95

* Yi (i = 1,…, n): các mức độ của dãy số thời điểm

* n: số mức độ của dãy số

Vd:

Y = (19/2 +54+81+90+95/2)/(5-1)

y= (y1 /2 + y2 + y3 + … + yn-1 + yn / 2) / (n -1)

Trang 11

i i

* yi (i=1,2,3, , n): các mức độ của dãy số thời điểm

* ti (i=1,2, , n): độ dài của các khoảng cách thời gian

Trang 12

Vd: Đối với dãy số thời điểm: Sản lượng bán ra quí 1 năm 2010 như sau:

Ngày (thời điểm) 1-1 20-1 15-2 10-3 Sản lượng (ngàn lít) 400 600 500 700

Trang 13

Hệ số tương quan của hai đại lượng ngẫu nhiên X và Y, ký hiệu là r XY là số được xác định như sau:

với S X, S Y là độ lệch tiêu chuẩn của X, Y.

Ý nghĩa của hệ số tương quan:

Hê số tương quan đo mức độ phụ thuộc tuyến tính giữa X và Y Khi r XY càng gần 1 thì mối quan hệ tuyến tính càng chặt, khi r XY càng gần 0 thì quan hệ tuyến tính càng lỏng lẻo.

Ước lượng hệ số tương quan:

2.2.1 Tương quan (Correlation)

Trang 14

•Lập mẫu ngẫu nhiên WXY = [(X1,Y1), (X2,Y2), …,(Xn,Yn)]

•Để ước lượng hệ số tương quan

Ta sử dụng thống kê

2.2 Tương quan (Correlation) và Hàm tự tương quan

ACF(AutoCorrelation Function) 2.2.1 Tương quan – Correlation (tt)

Y X

XY

S S

Y E X E XY

E r

.

) ( ).

( )

=

Y

X S S

Y X XY

Trang 15

Với mẫu cụ thể ta tính được ta tính được giá trị của R là

2.2.1 Tương quan – Correlation (tt)

Trong đó:

Y

X S S

Y X XY R

Trang 16

Tính chất của hệ số tương quan

Hê số tương quan

được dùng để đánh giá mức độ chặt chẻ của sự phụ thuộc tương quan tuyến tính giữa hai đại lượng ngẫu nhiên X và Y có các tính chất như sau:

ACF(AutoCorrelation Function) 2.2.1 Tương quan – Correlation (tt)

Y

X S S

y x xy r

•Nếu |r| =1 thì X và Y có quan hệ tuyến tính

•Nếu |r| càng lớn thì sự phụ thuộc tương quan tuyến tính giữa X

Trang 17

Ví dụ:

2.2.1 Tương quan – Correlation (tt)

Hệ số tương quan của X

và Y là

Trang 18

Tự tương quan có thể được định nghĩa là sự tương quan giữa các thành phần của chuỗi các quan sát được sắp xếp theo thứ tự thời gian hay không gian

Hàm tự tương quan do lường phụ thuộc tuyến tính giữa các cặp quan sát y(t) và y(t+k) Với độ trễ k =1,2, hàm tương tự quan tại

độ trễ k được xác định qua độ lệch giữa các biến ngẫu nhiên y(t)

và y(t+k) so với giá trị trung bình và được chuẩn hóa qua phương sai (variance).

ACF(AutoCorrelation Function)

2.2.2 Hàm tự tương quan ACF(AutoCorrelation Function)

Trang 19

Giả sử các biến ngẫu nhiên trong chuỗi dừng thay đổi quanh giá trị trung bình μ với phương sai σ2 Khi đó, hàm tương tự quan tại các độ trễ khác nhau sẽ có giá trị khác nhau

Trong thực tế ta có thể ước lượng hàm tự tương quan tại độ trễ

k qua phép biến đổi trung bình của tất cả các cặp quan sát, phân biệt bằng độ trễ k Với giá trị trung bình mẫu là μ, được chuẩn hóa bởi phương sai σ2 Cho chuỗi N điểm, giá trị rk của hàm tương tự quan tại độ trễ k được tính như sau:

Trang 20

yt: dữ liệu chuỗi thời gian dừng tại thời điểm t

yt+k : dữ liệu chuỗi thời gian dừng tại thời điểm t +k

μ : giá trị trung bình của chuỗi thời gian dừng.

rk : giá trị tương quan giữa yt và yt+k tại độ trễ k.

r =0 thì không có hiện tượng tự quan, Trong đó

2.2 Hàm tự tương quan ACF (AutoCorrelation Function) (tt)

Trang 21

Tính rk cho các độ trễ k =1, 2, 3, …, sau đó vẽ biểu đồ ACF của mẫu dữ liệu Biểu đồ có công dụng xác định xem xét hiện tượng dừng của chuỗi để nhận dạng mô hình ARIMA dự định

-Tính Hàm tự tương quan tại độ trễ k

ok =0, có giá trị 1 (hàm tự tương quan với chính nó)

ok=1, có giá trị là – 0.48 (mô tả hàm tự tương quan tại

độ trễ thứ 1 dao trung bình giữa các quan sát liên tục

“42 và 59; 59 và 35; 35 và 66; 66 và 37; 37 và 58…”)

o…

- Áp dụng tương tự cho các độ trễ khác

Trang 22

Trang 23

Đ ể kiểm định có phải là mô hình AR hay không hoặc r k =0 theo ý ngh ĩa thống kê, ta sử dụng kiểm định cho những mẫu lớn khi n khá

l ớn, các hệ số r k s ẽ gần như tuân theo phân phối chuẩn và có μ = 0,

phương sai (variance) đư ợc xác định theo công thức:

)]

( 2 1

[

1

2 3

2 2

Trang 24

Nếu chúng ta muốn kiểm pk ở mức ý nghĩa 5%, ta sử dụng giá trị tới hạn là 2 để so sánh với thống kê khi kiểm tra các giả thiết:

2

2 1

1

j

k

r n

r t

∑ +

=

H0 : p(k) = 0

Ha : p(k) ≠ 0Trong đó

k = độ trễ

n = số lần quan sát

j = 1,2,….k-1 (j<k)Nếu t<2 thì ta sẽ không có AR (Pk < 0)

Trang 25

Nếu chúng ta muốn kiểm pk ở mức ý nghĩa 5%, ta sử dụng giá trị tới hạn là 2 để so sánh với thống kê khi kiểm tra các giả thiết:

2

2 1

1

j

k

r n

r t

∑ +

=

H0 : p(k) = 0

Ha : p(k) ≠ 0Trong đó

k = độ trễ

n = số lần quan sát

j = 1,2,….k-1 (j<k)Nếu t<2 thì ta sẽ không có AR (Pk < 0)

Trang 26

2.2.3 Hàm tự tương quan riêng phần PACF(Partial

Theo phần trên với việc xác định hàm tương quan giữa cặp y(t) vày(t+k), ta xác định hàm tự tương quan riêng phần đến các quan sát y(t+1), …, y(t+k-1) Hàm tự tương quan riêng phần tại độ trễ K Ckk được ước lượng bằng hệ số liên hệ y(t) trong mối kết hợp tuyến tính bên dưới Sự kết hợp được tính dựa trên tầm ảnh hưởng của y(t) vàcác giá trị trung gian y(t+k)

Trang 27

Y(t+k) = Ck1 y(t+k-1) + Ck2 y(t+k-2)+,…+Ckk y(t+1) + Ckky(t) + e(t)

Giải phương trình hồi qui dựa trên bình phương tối thiểu (oridinary least square) vì hệ số hồi quy Ckj phải được tính ở mỗi độ trễ k, với j chạy từ 1 đến k

Giải pháp dùng xấp xỉ đệ quy hệ số hồi quy cho mô hình ARIMA chuỗi dừng (do Durbin phát triển), sử dụng giá trị hàm tự tương quan tại dộ trễ k rk và hệ số hồi quy của độ trễ trước Phương pháp

sử dụng 3 độ trễ đầu tiên :

Trang 28

AutoCorrelation Function)

- Độ trễ 1 : khởi tạo, giá trị của hàm tự tương quan riêng phần tại độ trễ 1

có cùng giá trị với hàm tự tương quan tại độ trễ 1 vì không có các giá trịtrung gian giữa các quan sát kế tiếp : C11 :r1

- Độ trễ 2 : Hai giá trị C22 và C21 được tính dựa vào hàm tự tương quan r2

và r1, cùng với hàm tự tương quan riêng phần trước đó

11 22 11

21

1 11

2 22

1

C C C

C

r C

- Độ trễ 3: Tương tự, ba giá trị C33, C32 và C31 được tính dựa vào hàm

tự tương quan trước r3, r2, r1 cùng với các hệ số được tính ở độ trễ thứ2: C22 và C21

Trang 29

- Tổng quát, Hàm tự tương quan riêng phần PACF được tính như sau:

21 33 22

31

22 33 21

32

1 21 2

22

1 22 2

21 3

33

1

C C C

C

C C C

C

r C r

C

r C r

C

r C

j k j k k

kk

r C

) (

1

) (

, 1

rk: hàm tự tương quan tại độ trễ k

Ckj: hàm tự tương quan riêng phần cho độ trễ k, loại bỏ những

ảnh hưởng các độ trễ can thiệp j

Ckj = Ck-1,j –(Ckk).(Ck-1,k-j)

Trong đó:

Trang 30

tự tương quan và tự tương quan riêng phần với N/4 độ trễ, giá trị tối thiểu của N là 50

n

C v

Trang 31

Tóm lại, hàm tự tương quan ACF và hàm tự tương quan riêng phần

PACF của chuỗi thời gian có đặc tính khác nhau Hàm tự tương quan ACF đo mức độ phụ thuộc tuyến tính giữa các cặp quan sát cón hàm PACF đo mức độ phụ thuộc tuyến tính từng phần ARIMA sử dụng 2 đặc tính này để xác định cấu trúc mô hình cho chuỗi thời gian được

thực hiện trong luận văn này

Tại độ trễ thứ 1, giá trị hàm tự tương quan riêng phần PACF chính là giátrị hàm tự tương quan ACF Giá trị âm cho thấy hệ số âm giữa các

khoảng thời gian kề nhau

Trang 32

Trang 33

Xu hướng vận động của hàm tự tương quan riêng phần PACF có thểgiảm đột ngột (thường sau độ trễ 1 hoặc độ trễ 2) hay có thể giảm đều (dying down) Cũng giống như hàm tự tương quan ACF, xu hướng giảm đều của hàm tự tương quan riêng phần PACF cũng có dạng như sau:

•Dạng phân phối mẫu (hình 1.3a và 1.3b)

•Dạng hình sin (hình1.3c)

•Kết hợp cả 2

Trang 34

Trang 36

2.4.1 Mô hình tự hồi qui bậc p (Auto Regression)

-AR(P)

Mô hình này sẽ thực hiện theo dạng hội qui trên chính số liệu của nó

ở những chu kỳ trước Có công thức tổng quát sau:

y(t) = a0 + a1y(t-1) + a2y(t-2)+…+ apy(t-p) + e(t)

y(t): quan sát dừng hiện tại.

y(t-1), y(t-2),… : quan sát dừng quá khứ

a 0 , a 1 , a 2 , …,a p : các tham số phân tích hồi qui.

e(t) : Sai số dự báo ngẫu nhiên của giai đoạn hiện tại (giá trị trung bình được mong đợi bằng 0)

Trong đó :

Trang 37

y(t) là một hàm tuyến tính của những quan sát dừng quá khứ 1), 2), …Nói cách khác, khi sử dụng phân tích hồi qui y(t) theo các giá trị

y(t-chuỗi thời gian dừng có độ trễ, chúng ta sẽ được mô hình AR (yếu tố xu thế đã được tách khỏi yếu tố thời gian, ta chỉ tập trung mô hình hóa

những yếu tố còn lại đó là sai số).

Nếu sử dụng mô hình hàm tự tương quan ACF là bậc p của mô hình

AR Nếu sử dụng hai quan sát dừng trong quá khứ, ta có mô hình tương quan bậc 2 là AR(2)

Điều kiện dừng là tổng các tham số hồi quy nhỏ hơn 1

(a0 + a1 + a2 +…+ ap < 1)

Mô hình AR(1) : y(t) = a0 + a1y(t-1) + e(t)

Mô hình AR(2) : y(t) = a0 + a1y(t-1) + a2y(t-2) + e(t)

Trang 38

2.4.2 Mô hình trung bình trượt bậc q (Moving

Average) - MA(q)

Quan sát dừng hiện tại y(t) là một hàm tuyến tính phụ thuộc

các biến sai số dự báo quá khứ và hiện tại Mô hình bình quân di động là một trung bình trọng số của những sai số mới nhất.

y(t) = b 0 + e(t) + b 1 e(t-1) + b 2 e(t-2) + …+ b q e(t-q).

Trong đó :

y(t) : quan sát dừng hiện tại

e(t) : sai số dự báo ngẫu nhiên, giá trị của nó không được biết

và giá trị trung bình của nó là 0

e(t-1), e(t-2), … : sai số dự báo trong quá khứ (thông thường sửdụng không quá 2 biến này)

b0, b1, b2,… : giá trị trung bình của y(t) và các hệ số bình quân di động

q : sai số quá khứ được dùng trong mô hình bình quân di động, nếu sử dụng 2 sai số quá khứ thì sẽ có mô hình bình quân di động bậc hai là MA(2)

Trang 39

Điều kiền cần là tổng các hệ số bình quân di động phải nhỏ hơn 1

(b1 + b2 +…+ bq< 1)

Mô hình MA(1) : y(t) = b 0 + e(t) + b 1 e(t-1)

Mô hình MA(2) : y(t) = b 0 + e(t) + b 1 e(t-1) + b 2 e(t-2)

Trang 40

2.4.3 Mô hình ARMA(p,q)

Mô hình này là mô hình hổn hợp hai mô hình trên (AR, MA)

Hàm tuyến tính sẽ bao gồm những quan sát dừng quá khứ và

những sai số dự báo quá khứ và hiện tại:

y(t) = a 0 + a 1 y(t-1) + a 2 y(t-2)+…+ a p y(t-p) + e(t) + b 0 + e(t) +

b 1 e(t-1) + b 2 e(t-2) + …+ b q e(t-q).

y(t) : quan sát dừng hiện tại

y(t-p) và e(t-q) : quan sát dừng và sai số dự báo quá khứ

e(t-1), e(t-2), … : sai số dự báo trong quá khứ (thông thường sửdụng không quá 2 biến này)

a0 , a1, a2, … ; b0, b1, b2,… : các hệ số phân tích hồi qui

Trong đó :

Trang 41

Nếu ta nói ARMA (1,2) tức là mô hình hỗn hợp của AR(1) và

MA(2) Đối với mô hình hỗn hợp thì dạng (p,q)= (1,1) là phổ biến Tuy nhiên, giá trị p,q được xem là những độ trễ cho ACF và PACF quan trọng sau cùng Cả hai điều kiện dừng phải thỏa mãn trong

mô hình hỗn hợp ARMA

Trang 42

2.4.4 Mô hình ARIMA(p,d,q) - Autoregressive

integrated moving average

Mô hình ARIMA (p,d.q) do Box – Jenkins đề xuất chỉ mô tả tính dừng vànhững chuỗi đã sai phân hóa, nên mô hình ARIMA (p,d,q) thể hiện những chuỗi dữ liệu không dừng, đã được sai phân Trong đó: d chỉ mức độ sai phân

Khi chuỗi thời gian dừng được chọn thì hàm tự tương quan ACF giảm đột biến hoặc giảm đều nhan, chúng ta có thể chỉ ra một mô hình dự định bằng các nghiên cứu xu hướng của hàm tự tương quan ACF và hàm tự tương quan riêng phần PACF

Trang 43

Tóm lại để nhận dạng mô hình ARIMA(p,d,q) là tìm các giá trị thích hợp của p, d, q Với d là bậc sai phân của chuỗi thời gian được khảo sát, p làbậc tự hồi qui và q là bậc trung bình trượt Việc xác định p và q sẽ phụthuộc vào các đồ thị hàm tự tương quan và tự tương quan riêng phần

trễ q = 1, 2

Giảm đều theo dạng

mũ hay dao động lên xuống

Giảm đột ngột sau độtrễ p = 1, 2

ARMA (p,q) Giảm đều theo dạng

Giảm đều theo dạng

Trang 45

Với phương pháp này sẽ có một số bước chung như :

1 Nhận dạng (indentification)

2 Ước lương (estimation)

3 Kiểm định độ chính xác (diagostic checking)

4 Dự báo (forecasting)

Nhận dạng : Yếu tố xu thế sẽ được tách khỏi dữ liệu (bằng các lấy

sai phân bâc 1 hay bậc 2 của dữ liệu) và sau đó nhận dạng mô hình

dự định như phần trên đã trình bày theo dạng AR, MA hay ARMA

Phương pháp nhận dạng thường được thực hiện qua nghiên cứu

theo chiều hướng biến đổi hàm tự tương quan ACF hay hàm tự

tương quan riêng phần PACF

Ước lượng : Chúng ta tính những ước lượng khởi đầu cho những

tham số của mô hình dự định, sau đó xây dựng những ước lượng sau cùng bằng mô hình bằng một quá trình lặp Mặc dù, theo những công thức để tính những ước lượng ban đầu, nhưng một cách đơn giản chúng ta cho ước lượng các hệ số của phương trình tổng quát

Định dạng
Số trang	49
Dung lượng	1,28 MB