Luận văn gồm ba chương: Chương 1 đưa ra các yếu tố của việc phân tích chuỗi thời gian thăm dòbao gồm các mô hình phù hợp Logistic, Mitscherlich, đường cong Gom-pertz cho một chuỗi các dữ
Trang 1Mục lục
1.1 Mô hình cộng tính của chuỗi thời gian 2
1.1.1 Mô hình với xu hướng không tuyến tính 3
1.1.2 Hàm Logistic 4
1.1.3 Hàm Mitscherlich 5
1.1.4 Đường cong Gompertz 6
1.1.5 Hàm tương quan sinh trưởng (the Allometric Function) 6
1.2 Bộ lọc tuyến tính của chuỗi thời gian 9
1.2.1 Các bộ lọc tuyến tính 9
1.2.2 Điều chỉnh theo mùa 11
1.2.3 Chương trình điều tra dân số X - 11 11
1.2.4 Đa thức địa phương phù hợp nhất 13
1.2.5 Bộ lọc sai phân 15
1.2.6 Làm trơn hàm mũ 16
1.3 Tự hiệp phương sai và tự tương quan 18
2 Mô hình chuỗi thời gian 20 2.1 Bộ lọc tuyến tính và quá trình ngẫu nhiên 20
2.1.1 Quá trình dừng 22
2.1.2 Sự tồn tại của quá trình tuyến tính tổng quát 22
2.1.3 Hàm sinh hiệp phương sai (The Covariance Generating Function) 28 2.1.4 Đa thức đặc trưng 29
2.1.5 Bộ lọc ngược 30
2.1.6 Bộ lọc nguyên nhân (Causal Filters) 31
2.2 Trung bình trượt và quá trình tự hồi quy 33
2.2.1 Quá trình khả nghịch 35
2.2.2 Quá trình tự hồi quy 36
2.2.3 Điều kiện dừng của quá trình tự hồi quy 36
2.2.4 Phương trình Yule - Walker 38
2.2.5 Hệ số tự tương quan riêng 39
2.2.6 Quá trình - ARMA 41
2.2.7 Hàm tự hiệp phương sai của quá trình - ARMA 42
2.2.8 Quá trình - ARIMA 45
2.3 Nhận dạng mô hình ARMA: Phương pháp Box - Jenkins 46
2.3.1 Lựa chọn bậc 46
2.3.2 Ước lượng hệ số 47
Trang 22.3.3 Kiểm định sự phù hợp của mô hình 52 2.3.4 Dự báo 53
3 Mô hình không gian - trạng thái (State - Space Models) 58 3.1 Biểu diễn không gian - trạng thái 58 3.2 Bộ lọc Kalman 62
Trang 3tế, xã hội cũng như trong nghiên cứu khoa học Một chuỗi thời gian là tậphợp các quan sát của các dữ liệu được xác định rõ thu được thông qua cácphép đo lặp đi lặp lại theo thời gian Phân tích chuỗi thời gian bao gồmcác phương pháp để phân tích dữ liệu chuỗi thời gian, từ đó trích xuấtđược các thuộc tính thống kê có ý nghĩa và các đặc điểm của dữ liệu Nhờ
đó, ta có cơ sở để dự báo các kết quả cho tương lai
Với mong muốn tìm hiểu về phân tích chuỗi thời gian nhằm dự báocác kết quả trong tương lai, luận văn nghiên cứu về đề tài "Tìm hiểu
về phân tích chuỗi thời gian" Luận văn cung cấp kiến thức chính choviệc phân tích chuỗi thời gian trong miền thời gian Các kiến thức cơ sởcần có là sự hội tụ trong phân phối, hội tụ ngẫu nhiên, ước lượng hợp lýcực đại cũng như kiến thức cơ bản của lý thuyết kiểm định
Luận văn gồm ba chương:
Chương 1 đưa ra các yếu tố của việc phân tích chuỗi thời gian thăm dòbao gồm các mô hình phù hợp (Logistic, Mitscherlich, đường cong Gom-pertz) cho một chuỗi các dữ liệu, bộ lọc tuyến tính cho điều chỉnh theomùa và xu hướng điều chỉnh (bộ lọc sai phân, chương trình điều tra dân
số X – 11) và bộ lọc mũ cho theo dõi hệ thống Tự hiệp phương sai và tựtương quan sẽ được giới thiệu trong chương này
Chương 2 cung cấp phép toán của các mô hình toán học về dãy ổn địnhcủa biến ngẫu nhiên (ồn trắng, trung bình trượt, quá trình tự hồi quy, môhình ARIMA) cùng với các kiến thức cơ sở (sự tồn tại của quá trình dừng,hàm sinh hiệp phương sai, bộ lọc ngược và bộ lọc nguyên nhân, điều kiệndừng, phương trình Yule – Walker, tự tương quan riêng) Chương trìnhBox – Jenkins cho mô hình ARMA sẽ được nghiên cứu một cách cụ thể
Trang 4(tiêu chuẩn thông tin AIC, BIC và HQ) Quá trình Gaussian và ước lượnghợp lý cực đại trong mô hình Gaussian được giới thiệu cũng như ước lượngbình phương tối thiểu như là một khả năng loại trừ không có tham số Kếtquả được kiểm tra bằng Box – Ljung.
Chương 3 giới thiệu mô hình chuỗi thời gian được nhúng trong mô hìnhkhông gian trạng thái Bộ lọc Kalman là một phương pháp dự đoán thốngnhất gần với các phân tích của chuỗi thời gian trong miền thời gian
Bản luận văn này được hoàn thành dưới sự hướng dẫn nghiêm khắc vàchỉ bảo tận tình của PGS.TS Phan Viết Thư Thầy đã dành nhiều thờigian hướng dẫn cũng như giải đáp các thắc mắc của tôi trong suốt quátrình làm luận văn Tôi muốn bày tỏ lòng biết ơn sâu sắc đến người thầycủa mình
Qua đây, tôi xin gửi tới các thầy cô Khoa Toán - Cơ - Tin học, Trường Đạihọc Khoa học Tự nhiên, Đại học Quốc gia Hà Nội, cũng như các thầy cô
đã tham gia giảng dạy khóa cao học 2011- 2013 lời cảm ơn sâu sắc nhấtđối với công lao dạy dỗ trong suốt quá trình giáo dục đào tạo của Nhàtrường
Tôi xin cảm ơn gia đình, bạn bè và tất cả mọi người đã quan tâm, tạođiều kiện, động viên cổ vũ tôi để tôi có thể hoàn thành nhiệm vụ của mình
Hà Nội, ngày 11 tháng 02 năm 2014
Học viênPhạm Thu Hằng
Trang 5Chương 1
Các yếu tố của phân tích chuỗi thời gian thăm dò
Chuỗi thời gian là chuỗi các quan sát được sắp xếp theo thời gian Ví
dụ, thu hoạch hàng năm của củ cải đường và giá của chúng/tấn được ghilại trong nông nghiệp Thông báo về giá cổ phiếu hàng ngày, tỷ lệ đầu tưhàng tuần, tỷ lệ số người thất nghiệp hàng tháng và doanh thu hàng nămtrong các tờ báo kinh tế Khí tượng học ghi lại tốc độ gió hàng giờ, nhiệt
độ cao nhất và thấp nhất hàng ngày, mực nước mưa hàng năm Địa lýhọc liên tục theo dõi sự thay đổi của trái đất để dự đoán khả năng độngđất Một điện não đồ ghi lại dấu vết sóng não thực hiện bởi một máy điện
tử để phát hiện bệnh não, điện tâm đồ dấu vết sóng tim Những điều tra
xã hội về tỷ lệ sinh và tỷ lệ chết, các tai nạn trong nhà và hành vi phạmtội Tham số trong một quá trình sản xuất được theo dõi thường xuyên
để kiểm tra trực tuyến, đảm bảo chất lượng
Hiển nhiên, có rất nhiều lý do để ghi lại và phân tích những dữ liệu vềchuỗi thời gian Trong số đó, đặc biệt là sự mong muốn có một hiểu biếttốt hơn về các dữ liệu tạo ra cơ chế, dự đoán về kết quả trong tương laihoặc điều khiển tối ưu một hệ thống Tính chất đặc trưng của chuỗi thờigian là dữ liệu không được sinh ra một cách độc lập, sự sai khác của chúngthay đổi theo thời gian, chúng thường bị điều chỉnh bởi xu hướng và chúng
có các thành phần chu kỳ Do đó, các quá trình thống kê mà người ta giả
sử dữ liệu có tính độc lập và cùng phân phối, sẽ loại trừ khỏi phân tíchcủa chuỗi thời gian Điều này đòi hỏi những phương pháp thích hợp đượctập hợp lại dưới cái tên Phân tích chuỗi thời gian
Trang 61.1 Mô hình cộng tính của chuỗi thời gian
Mô hình cộng tính đối với một chuỗi thời gian y1, y2, , yn là giả thiếtrằng những dữ liệu trên là phép thể hiện của các biến ngẫu nhiên Yt saocho Yt là tổng của bốn thành phần
Yt = Tt + Zt + St + Rt, t = 1, , n, (1.1)trong đó Tt là hàm (đơn điệu) của t , gọi là xu hướng Zt phản ánh một
số tác động dài hạn không ngẫu nhiên có chu kỳ Ví dụ, chu kỳ nổi tiếngtrong kinh doanh thường bao gồm suy thoái, phục hồi, tăng trưởng và suygiảm St mô tả một số ảnh hưởng không ngẫu nhiên theo chu kỳ ngắn hạnnhư là một thành phần theo mùa trong khi Rt là một biến ngẫu nhiên baogồm tất cả độ lệch từ mô hình không ngẫu nhiên lý tưởng yt = Tt+ Zt+ St.Các biến Tt và Zt thường được viết gọn thành
Gt mô tả diễn biến dài hạn của chuỗi thời gian Chúng ta sẽ giả thiết rằng
kỳ vọng E (Rt) = 0 của biến sai số tồn tại và bằng 0, điều đó phản ánhgiả thiết độ lệch ngẫu nhiên trên hoặc dưới mô hình không ngẫu nhiêncân bằng lẫn nhau về trung bình Chú ý rằng E (Rt) = 0 có thể luôn đạtđược bằng cách thay đổi thích hợp một hoặc nhiều thành phần không ngẫunhiên
Biểu đồ dưới đây của dữ liệu thất nghiệp 1 chỉ ra một thành phần theomùa và một xu hướng giảm Chu kỳ từ tháng 7 năm 1975 tới tháng 9 năm
1979 có thể hơi ngắn để cho biết về chu kỳ kinh doanh dài hạn
Trang 7Biểu đồ 1.1.1: Dữ liệu thất nghiệp 1.
1.1.1 Mô hình với xu hướng không tuyến tính
Trong mô hình cộng tính Yt = Tt + Rt, ở đó chỉ có thành phần khôngngẫu nhiên là xu hướng Tt phản ánh sự phát triển của hệ thống và giảthiết rằng E (Rt) = 0, ta có:
E (Yt) = Tt = f (t) Giả thiết chung là hàm f phụ thuộc vào nhiều tham số (chưa biết)
β1, , βp tức là
f (t) = f (t; β1, , βp) , (1.3)tuy nhiên đã biết dạng của hàm f Các tham số chưa biết β1, , βp cầnđược ước lượng từ tập các thể hiện yt của biến ngẫu nhiên Yt Cách tiếpcận thông thường là sử dụng phương pháp ước lượng bình phương tốithiểu ˆβ1, , ˆβp thỏa mãn
Sau đây ta sẽ liệt kê một số ví dụ thông dụng của hàm xu hướng
Trang 81.1.2 Hàm Logistic
Hàm số
flog(t) = flog(t; β1, β2, β3) = β3
1 + β2exp (−β1t), t ∈ R, (1.5)với β1, β2, β3 ∈ R\ {0} là hàm Logistic được sử dụng rộng rãi
Biểu đồ 1.1.2: Hàm Logistic flog với các giá trị khác nhau β1, β2, β3.Hiển nhiên ta có lim
t→∞flog(t) = β3 nếu β1 > 0 Giá trị β3 thường giống sựsản sinh cực đại hoặc sự phát triển của hệ thống Chú ý rằng:
Như vậy tồn tại một mối liên hệ tuyến tính giữa 1
flog(t) Điều này có thểdùng làm cơ sở để ước lượng các tham số β1, β2, β3bằng một ước lượng bìnhphương tối thiểu thích hợp Trong ví dụ sau, ta sẽ khớp mô hình xu hướng(1.5) với dữ liệu về sự phát triển dân số của phía bắc Rhine-Westphalia(NRW) là một bang của Đức
Trang 9Ví dụ 1.1.1 (Dữ liệu dân số 1) Bảng 1.1.1 đưa ra số dân (tính theo đơn
vị hàng triệu) của bang NRW các bước chu kỳ 5 năm, từ năm 1935 đếnnăm 1980 và đưa ra giá trị dự báo của ˆyt, xác định bằng phương pháp ướclượng bình phương tối thiểu như mô tả (1.4) cho mô hình Logistic
(triệu người) (triệu người)
1.1.3 Hàm Mitscherlich
Hàm Mitscherlich là một dạng đặc trưng, thường được sử dụng trong
mô hình tăng trưởng dài hạn của hệ thống:
fM (t) = fM(t; β1, β2, β3) = β1+ β2exp (β3t) , t ≥ 0, (1.7)trong đó β1, β2 ∈ R và β3 < 0 Vì β3 là số âm nên ta có dáng điệu tiệmcận lim
t→∞fM(t) = β1 và do đó tham số β1 là giá trị bão hoà của hệ thống.Giá trị (khởi tạo) của hệ thống tại thời gian t = 0 là fM (t) = β1+ β2
Trang 101.1.4 Đường cong Gompertz
Một hàm khá thông dụng dùng để mô hình hoá sự tăng hoặc giảm củamột hệ thống là đường cong Gompertz
fG(t) = fG(t; β1, β2, β3) = exp β1+ β2β3t, t ≥ 0, (1.8)trong đó β1, β2 ∈ R và β3 ∈ (0, 1) Hiển nhiên ta có
log (fG(t)) = β1+ β2β3t = β1+ β2exp (log (β3) t) ,
và do đó log (fG) là hàm Mitscherlich với tham số β1, β2 và log (β3) Giátrị bão hoà là exp (β1)
Biểu đồ 1.1.3: Đường cong Gompertz với các tham số khác nhau
1.1.5 Hàm tương quan sinh trưởng (the Allometric Function)
Hàm tương quan sinh trưởng
fa(t) = fa(t; β1, β2) = β2tβ1, t ≥ 0, (1.9)với β1 ∈ R, β2 > 0 là hàm xu hướng thông dụng trong sinh vật học và kinh
tế học Nó có thể được xem như là một hàm Cobb-Douglas đặc biệt, làmột mô hình kinh tế lượng thông dụng để mô tả số lượng sản phẩm đầu
ra phụ thuộc đầu vào Vì
log (fa(t)) = log (β2) + β1log (t) , t > 0,
Trang 11là một hàm tuyến tính của log (t) với hệ số góc β1 và điểm cắt với trụctung là log (β2) nên ta có thể giả thiết một mô hình hồi quy tuyến tínhcho dữ liệu loga log (yt)
log (yt) = log (β2) + β1log (t) + εt, t ≥ 1,
trong đó εt là các biến sai số
Ví dụ 1.1.2 (Dữ liệu về thu nhập) Bảng 1.1.2 đưa ra thu nhập tích luỹtăng trung bình hàng năm của thu nhập trước thuế (Gross) và thu nhậpsau thuế (Net) tính theo đơn vị nghìn DM (đơn vị tiền tệ) tại Đức từ năm1960
Trang 12Bảng 1.1.3: Phần thặng dư của dữ liệu thu nhập.
Bảng 1.1.3 liệt kê phần dư yt− ˆyt, các phần dư này có thể đánh giá sự phùhợp của mô hình (1.11)
Một độ đo phổ thông để đánh giá sự phù hợp là hệ số tương quan nhiềuchiều bình phương hoặc giá trị R2
n
P
t=1
(yt − ˆyt)2 = 0.Một giá trị R2 gần tới 1 là thuận lợi cho mô hình Mô hình (1.10) có
R2 = 0.9934 trong khi (1.11) có R2 = 0.9789 Tuy nhiên ta phải chú ýrằng mô hình đầu tiên (1.9) không tuyến tính và ˆβ2 không phải là ướclượng bình phương tối thiểu, trong trường hợp này R2 không nhất thiếtphải nằm giữa 0 và 1 và do đó ta cần phải xem xét cẩn thận nó như làmột độ đo thô của sự phù hợp
Tổng thu nhập tăng trung bình trong năm 1960 là 6148 DM và tương ứng
Trang 13thu nhập ròng là 5148 DM Do đó tổng thu nhập trung bình hiện tại vàthu nhập ròng là ˜xt = xt+ 6.148 và ˜yt = yt+ 5.178 với mô hình ước lượngdựa trên giá trị dự đoán ˆyt
ˆt = ˆyt + 5.178 = 0.47t1.019
+ 5.178
Chú ý rằng giá trị thặng dư ˜yt− ˆ˜t = yt− ˆyt không bị ảnh hưởng bởi hằng
số cộng 5.178 vào yt Mô hình ở trên có thể giúp đánh giá tình trạng ngườiđóng thuế trung bình từ năm 1960 đến năm 1970 và dự đoán họ ở tươnglai Rõ ràng từ giá trị thặng dư trong bảng 1.1.3 cho thấy thu nhập ròng
yt gần như là bội số hoàn hảo của t với t nằm giữa 1 và 9 trong khi năm
1970, y10 tăng mạnh nhất dường như là giá trị ngoại lai Thật vậy, trongnăm 1969 chính phủ Đức đã có sự thay đổi và trong năm 1970 có một cuộcđình công lớn ở Đức là nguyên nhân cho việc thu nhập của công chức tăngmạnh
1.2 Bộ lọc tuyến tính của chuỗi thời gian
Sau đây ta sẽ xem xét mô hình cộng tính (1.1) và giả thiết rằng không
có thành phần chu kỳ dài hạn Tuy nhiên ta cho phép một xu hướng, trongtrường hợp này, làm trơn thành phần không ngẫu nhiên Gt bằng hàm xuhướng Tt Do đó, mô hình được phân tích dưới dạng
Yt = Tt + St + Rt, t = 1, 2, (1.13)với E (Rt) = 0 Cho thể hiện yt, t = 1, 2, , n trong chuỗi thời gian, mụcđích của phần này là ước lượng ˆTt, ˆSt của các hàm không ngẫu nhiên Tt
và St và loại bỏ chúng ra khỏi chuỗi thời gian bằng cách xét yt − ˆTt hoặc
yt − ˆSt thay vào đó Chuỗi nhận được sau khi loại bỏ xu hướng theo mùatrong chuỗi thời gian gọi là "chuỗi được điều chỉnh theo mùa"
Trang 14Dễ thấy rằng dữ liệu đầu ra ít hơn dữ liệu đầu vào nếu (r, s) 6= (0, 0) Mộtgiá trị dương s > 0 hoặc r > 0 là nguyên nhân cắt bỏ điểm bắt đầu hoặckết thúc của chuỗi thời gian Để thuận tiện, ta gọi véctơ của các trọng số(au) = (a−r, , as)T là một lọc (tuyến tính).
2s, u = −s + 1, , s − 1, a−s = as =
14s,mục đích chọn một số lượng chẵn trọng số để trung bình trượt đơngiản có bậc tương ứng là 2s + 1 và 2s
Lọc chuỗi thời gian là để làm san bằng những thành phần bất thường củachuỗi thời gian, do đó tìm ra xu hướng hoặc thành phần theo mùa, mà nó
có thể bị che khuất bởi những biến động Ví dụ, trong khi đồng hồ tốc độ
kỹ thuật số trong ô tô có thể cung cấp vận tốc tức thời của xe, cũng chothấy sự biến động khá lớn Một công cụ tương tự dùng tay và một bộ lọcxây dựng làm mịn có thể giảm tải các biến động nhưng mất một ít thờigian để điều chỉnh Công cụ thứ hai thì rất dễ đọc và các thông tin củachúng phản ánh xu hướng là đủ trong hầu hết các trường hợp
Để tính đầu ra của trung bình trượt đơn giản có bậc 2s + 1 ta sử dụngphương trình sau:
Yt+1∗ = Yt∗+ 1
2s + 1(Yt+s+1 − Yt−s) Lọc này là ví dụ riêng cho lọc thông thấp, bảo toàn thành phần xu hướngbiến đổi chậm của chuỗi và loại khỏi nó thành phần biến động nhanh hoặctần số cao Do đó, có một sự thoả hiệp giữa hai yêu cầu trên là những biếnđổi bất thường nên được giảm bởi một bộ lọc, ví dụ chọn nhiều s trongtrung bình trượt đơn giản, và do đó sự biến động dài hạn trong dữ liệu
sẽ không bị bóp méo bởi làm trơn quá mức, tức là có quá nhiều lựa chọn
s Ví dụ, nếu ta giả sử rằng chuỗi thời gian Yt = Tt + Rt không có thànhphần theo mùa, trung bình trượt đơn giản bậc 2s + 1 dẫn tới
Trang 15trong đó theo luật số lớn R∗t ∼ E (Rt) = 0 nếu s đủ lớn Nhưng Tt∗ có thểsau đó không còn phản ánh Tt Tuy nhiên, nếu chọn s nhỏ, ta thấy hiệntượng Rt∗ không còn gần với kỳ vọng của nó.
1.2.2 Điều chỉnh theo mùa
Trung bình trượt đơn giản của chuỗi thời gian Yt = Tt + St + Rt phântích thành
Yt∗ = Tt∗+ St∗+ R∗t,trong đó St∗ là trung bình trượt liên quan của thành phần theo mùa Hơnnữa, giả sử rằng St là hàm chu kỳ p , tức là St = St+p, t = 1, , n − p
Ví dụ nhiệt độ trung bình hàng tháng Yt đo được tại những điểm cố định,trong trường hợp này có thể giả thiết chu kỳ thành phần theo mùa St cóchu kỳ p = 12 tháng Trung bình trượt đơn giản bậc p cho giá trị bất biến
St∗ = S, t = p, p + 1, , n − p Bằng việc cộng thêm hằng số S vào hàm
xu hướng Tt và đặt Tt0 = Tt + S , ta có thể giả thiết S = 0 Do đó ta cóhiệu Dt = Yt− Yt∗ ∼ St+ Rt Để ước lượng St ta tính trung bình hiệu nàyvới độ trễ p (chú ý rằng chúng dao động xung quanh St )
1.2.3 Chương trình điều tra dân số X - 11
Trong những năm 50 của thế kỷ 20, văn phòng US – điều tra dân số đãphát triển một chương trình điều chỉnh theo mùa của chuỗi thời gian kinh
Trang 16tế, được gọi là chương trình điều tra dân số X – 11 Chương trìnhnày phụ thuộc vào các quan sát hàng tháng và giả thiết mô hình cộng tính
Yt = Tt+ St+ Rt
giống như (1.13) với thành phần theo mùa St chu kỳ p = 12
Ta đưa ra một bản tóm tắt chương trình bởi Wallis (1974), đó là kết quảcủa trung bình trượt với trọng số đối xứng Phương pháp điều tra dân
số được trình bày trong Shiskin và Eisenpress (1957); một mô tả đầy đủđược đưa ra bởi Shiskin et al (1967) Chứng minh lý thuyết được dựa trên
mô hình ngẫu nhiên được cung cấp bởi Cleveland và Tiao (1976) Chươngtrình X - 11 thực chất làm việc như điều chỉnh theo mùa được mô tả ởtrên, nhưng chương trình này có thêm các phép lặp và nhiều trung bìnhtrượt khác nhau
Những bước khác nhau trong chương trình này là:
(i) Tính trung bình trượt đơn giản Yt∗ bậc 12 để loại bỏ về cơ bản một
(iv) ¯D(1)t được điều chỉnh bằng cộng xấp xỉ dần về 0 trên bất kỳ chu kỳ
2D¯
(1) t+6
Trang 17(vii) Hiệu Dt(2) = Yt − Yt∗∗ ∼ St + Rt sau đó loại ước lượng thứ hai củatổng thành phần theo mùa và thành phần bất thường.
(viii) Trung bình trượt bậc 7 được ứng dụng cho mỗi tháng một cách riêng
(x) Hiệu Yt(2) = Yt − ˆSt(2) cho ta chuỗi điều chỉnh theo mùa
Tùy thuộc độ dài của trung bình trượt Henderson được sử dụng trong bước(vi), Yt(2) là trung bình trượt có độ dài 165, 169 hoặc 179 của dữ liệu gốc.Nhận thấy rằng, điều này dẫn đến việc lấy trung bình tại thời gian t daođộng trước và sau 7 năm là một dạng độ dài đặc trưng của chu kỳ kinhdoanh đã được quan sát trong kinh tế (chu kỳ Juglar) Văn phòng US –điều tra dân số gần đây đã phát hành một phiên bản mở rộng của chươngtrình X – 11 gọi là Census X – 12 – ARIMA Nó được thực hiện trongSAS phiên bản 8.1 và cao hơn là PROC X12 (độc giả tham khảo các tàiliệu trực tuyến SAS để biết chi tiết)
1.2.4 Đa thức địa phương phù hợp nhất
Trung bình trượt đơn giản hoạt động tốt trong chuỗi thời gian hầutuyến tính địa phương, nhưng nó sẽ gặp phải môt số vấn đề khi làm việcvới tình trạng hình dạng xoắn Một gợi ý đưa ra là ta nên làm việc với đathức địa phương có bậc cao hơn
Xét 2k + 1 dữ liệu liên tục yt−k, , yt, yt+k từ chuỗi thời gian Một ướclượng đa thức địa phương bậc p < 2k + 1 là cực tiểu hóa β0, , βpthoả mãn
k
X
u=−k
(yt+u − β0− β1u − − βpup)2 = min (1.15)
Trang 18Nếu ta lấy đạo hàm vế trái tương ứng với mỗi βj và đặt các đạo hàm đóbằng 0, ta thấy các cực tiểu thoả mãn p + 1 phương trình tuyến tính
Mặc dù, dường như nếu đa thức địa phương phù hợp yêu cầu một tínhtoán lớn bởi tính β0 cho mỗi yt, nhưng thực ra là tính trung bình trượt
Trang 19với cu ∈ R không phụ thuộc giá trị yu của chuỗi thời gian và do đó(cu) là một lọc tuyến tính Ta tiếp tục chứng minh rằng
Bổ đề 1.2.3 Cho đa thức f (t) = c0+ c1t + + cptp bậc p, sai phân
Trang 20bộ lọc sai phân cấp 1 hoặc cấp 2.
1.2.6 Làm trơn hàm mũ
Cho Y0, , Yn là một chuỗi thời gian và cho α ∈ [0; 1] là hằng số Bộlọc tuyến tính
Yt∗ = αYt + (1 − α) Yt−1∗ , t ≥ 1,với Y0∗ = Y0 được gọi là làm trơn hàm mũ
Trang 21Chứng minh Khẳng định sau xuất phát từ phép quy nạp
để giám sát hệ thống Ví dụ, ô tô có đồng hồ đo vận tốc bằng tay Nó sẽthuận tiện hơn cho lái xe nếu chuyển động của tay cầm trơn, điều này cóthể đạt được khi α gần tới 0 Mặt khác, khi thay đổi vận tốc, lái xe cầnmột khoảng thời gian nhất định mới đọc được tốc độ
Hệ quả 1.2.5 (i) Giả sử biến ngẫu nhiên Y0, , Yn có cùng kỳ vọng µ
và phương sai σ2 > 0 Khi đó với biến làm trơn hàm mũ, với tham
Trang 22(ii) Giả sử các biến ngẫu nhiên Y0, Y1, thoả mãn E (Yt) = µ với 0 ≤
t ≤ N − 1 và E (Yt) = λ với t ≥ N Khi đó ta có với t ≥ N :
Làm trơn hàm mũ thường được sử dụng để dự báo, cụ thể bằng cách dựđoán Yt+1 thông qua Yt+1∗ Sai số dự báo Yt+1−Yt∗ = et+1 thoả mãn phươngtrình Yt+1∗ = αet+1+ Yt∗ Sự trình bày của phương pháp làm trơn hàm mũcũng có thể thông qua phương pháp bình phương tối thiểu
1.3 Tự hiệp phương sai và tự tương quan
Tự hiệp phương sai và tự tương quan là thước đo sự phụ thuộc giữa cácbiến trong chuỗi thời gian Giả sử Y1, , Yn là các biến ngẫu nhiên bìnhphương khả tích với tính chất hiệp phương sai
Cov (Yt+k, Yt) = E ((Yt+k − E (Yt+k)) (Yt − E (Yt)))của các quan sát với độ trễ k không phụ thuộc vào t Khi đó
γ (k) = Cov (Yk+1, Y1) = Cov (Yk+2, Y2) = được gọi là hàm tự hiệp phương sai và
ρ (k) = γ (k)
γ (0), k = 0, 1,
Trang 23được gọi là hàm tự tương quan.
Cho y1, , yn là các giá trị của chuỗi thời gian Y1, , Yn Biểu thức thựcnghiệm của hàm tự hiệp phương sai là
Đồ thị của hàm r (k) , k = 0, 1, , n−1 được gọi là biểu đồ tương quan
Nó dựa trên giả thiết các kỳ vọng bằng nhau và thường được sử dụng chochuỗi điều chỉnh xu hướng Hàm tự hiệp phương sai γ thoả mãn γ (0) ≥ 0
Trang 24Chương 2
Mô hình chuỗi thời gian
Mỗi một chuỗi thời gian Y1, , Yn có thể được xem như là một hìnhthức cắt từ một dãy các biến ngẫu nhiên , Y−2, Y−1, Y0, Y1, Y2, Sauđây, ta sẽ giới thiệu một vài mô hình cho quá trình ngẫu nhiên Yt như thếvới chỉ số nguyên Z
2.1 Bộ lọc tuyến tính và quá trình ngẫu nhiên
Để thuận tiện, ta sẽ nghiên cứu biến ngẫu nhiên nhận giá trị phức
Y , đó là những biến ngẫu nhiên nhận giá trị trong tập số phức
Trang 25cho biến thực ngẫu nhiên X trên miền phức, ta xác định hiệp phương saicủa các biến phức ngẫu nhiên bình phương khả tích Y, Z bởi
Chú ý rằng hiệp phương sai Cov (Y, Z) không còn đối xứng đối với Y và
Z như trường hợp hai biến này nhận giá trị thực, nhưng nó thoả mãn tínhchất
Cov (Y, Z) = Cov (Z, Y )
Bổ đề sau đây kéo theo bất đẳng thức Cauchy – Schawarz đối với biếnphức ngẫu nhiên
Bổ đề 2.1.1 Với mọi biến phức ngẫu nhiên khả tích Y = Y(1) + iY(2), tacó:
|E (Y )| ≤ E (|Y |) ≤ E Y(1) + E Y(2)
.Chứng minh Ta viết E (Y ) trong tọa độ cực E (Y ) = reiϑ, trong đó
Y(1)2 + Y(2)2
12
≤ ... lý 2.1.11 suy tồntại lọc ngược nguyên nhân khả tổng tuyệt hệ số có thểthu cách phân tích
A (z) thành chuỗi luỹ thừa z:
1 − z5
= X... class="page_container" data-page="27">
ngẫu nhiên nhận giá trị phức bình phương khả tích (định nghĩa khơnggian xác suất (Ω, A, P) đặt kY k2 = E
|Y |2... mãn với
Quá trình dừng (εt)t∈Z biến ngẫu nhiên thực bình phương khả tích
và khơng tương quan gọi ồn trắng (white noise) tức Cov (εt, εs)