Xét quá trình t=.
Trang 2quan 61.1.3
Quá trình d ng 71.2 M t s quá trình d ng quan tr ng 10
c p 1 14 Quá trình t h i quy c p
2 17 Quá trình t h i quy c p
p 20 Quá trình h n h p ARMA(p,q) 21
M t s tiêu chu n l a ch n mô hình 24 2.1 Tiêu chu n thông tin Akaike 24
2.1.1 Kho ng cách Kullback - Leibler 24 2.1.2
Ư c lư ng h p lý c c đ i và kho ng cách Kullback - Leibler 26
Trang 32.1.3 Đ nh nghĩa AIC 32
2.1.4 AIC và kho ng cách Kullback - Leibler 34
2.2 Tiêu chu n thông tin Bayesian (BIC) 40
2.2.1 Ngu n g c c a BIC 40 2.2.2
Đ nh ngĩa BIC 42 2.3 Xác đ nh b c c a mô hình ARMA b ng ACF và PACF 47
2.3.1 AFC: Hàm t tương quan 47 2.3.2
PACF: Hàm t tương quan riêng 49
Chương 3
ng d ng 55 3.1 D li u 55 3.2 Phân tích 55 3.3 Code
R 59
Tài li u tham kh o 63
Trang 4L i nói đ u
L a ch n mô hình (Model selection) là bài toán cơ b n c a th ng kê cũng như nhi u nghành khoa h c khác Theo R.A Fisher có 3 bài toán chính trong
th ng kê suy lu n và d báo g m
- Xác đ nh mô hình (model specification)
- Ư c lư ng tham s (estimation of model parameters)
- D báo (prediction)
Trư c nh ng năm 1970 h u h t các nghiên c u t p trung vào hai bài toán sau v
i gi thi t mô hình đã bi t Sau khi xu t hi n công trình c a Akaike (1973) thì bài toán l a ch n mô hình thu hút đư c s quan tâm c a c ng đ ng làm th ng kê
V i m t b d li u đưa ra, mô hình nào là t t nh t? Đ tr l i cho câu h i trên, ngư i
ta đã đưa ra các tiêu chu n thông tin đ l a ch n mô hình phù h p như tiêu chu n thông tin c a Akaike (AIC) và tiêu chu n thông tin c a Bayesian (BIC), Vi c l a
ch n mô hình phù h p là trung tâm cho t t c các công tác thông kê v i d li u L a
ch n các bi n đ s d ng trong mô hình h i quy là m t trong nh ng ví d quan tr ng
Lu n văn c a tôi trình bày hai tiêu chu n thông tin quan tr ng đó là tiêu chu n thông tin c a Akaike và tiêu chu n thông
tin c a Bayesian Lu n văn g m ba chương
Chương 1 Gi i thi u m t s chu i th i gian d ng
Chương này trình bày m t s khái ni m cơ b n: quá trình c p 2, hàm trung bình
và hàm t hi p phương sai c a m t quá trình ng u nhiên, quá trình d ng
3
Trang 5và m t s quá trình d ng quan tr ng như: quá trình trung bình trư t c p 1,
c p q, c p vô h n; quá trình t h i quy c p 1, c p2, c p p, quá trình h n h p
ARMA(p,q)
Chương 2 M t s tiêu chu n l a ch n mô hình
Chương này trình bày khái ni m kho ng cách Kullback - Leibler, m i liên h gi a ư
c lư ng h p lý c c đ i và kho ng cách Kullback - leibler, đ nh nghĩa AIC, m i liên
h gi a AIC và kho ng cách Kullback - Leibler, ngu n g c và đ nh nghĩa BIC Chương 3 ng d ng
Chương này trình bày v ng d ng ph n m m th ng kê R đ v đ th c a các
hàm t tương quan và t tương quan riêng trong mô hình liên quan đ n d li u
v t ng thu nh p qu c dân M t quý 1 năm 1947 đ n quý 3 năm 2002 (đư c
ly website http://research.st louisfed.org/), xác đ nh AIC và BIC trong các
Trang 6L I C M ƠN Sau m t th i gian h c t p t i khoa Toán - Cơ - Tin h c, trư ng Đ i h c Khoa
h c T Nhiên, dư i s hư ng d n và ch b o t n tình c a TS Tr n M nh Cư ng, tôi đã hoàn thành lu n văn th c s v i đ tài "M t s tiêu chu n l a ch n mô hình"
Trong su t quá trình h c t p và tri n khai nghiên c u đ tài, tôi đã nh n đư c r t nhi u s giúp đ c a các th y, cô trong b môn Xác su t th ng kê, các th y cô trong khoa Toán - Cơ - Tin h c trư ng Đ i h c Khoa h c T Nhiên, Đ i h c Qu c gia Hà N
i, đ c bi t là th y Tr n M nh Cư ng
Tôi bày t lòng bi t ơn chân thành và sâu s c đ n th y Tr n M nh Cư ng, ngư i
đã t n tình ch b o và giúp đ tôi r t nhi u trong quá trình nghiên c u và làm đ tài Tôi g i l i c m ơn đ n ban giám hi u, phòng sau đ i h c, các th y cô trong khoa Toán - Cơ - Tin h c nói chung và các th y, cô trong b môn Xác su t th ng kê nói riêng đã t o nh ng đi u ki n thu n l i nh t đ tôi có th hoàn thành lu n văn này
5
Trang 8Hàm t hi p phương sai, kí hi u là r(s, t) đư c đ nh nghĩa b i công th c sau
X(t) đư c g i là m t quá trình d ng (y u) n u hàm trung bình m(t) là h ng s
(không ph thu c vào t) và hàm t hi p phương sai r(s, t) ch ph thu c vào s−t
Như v y X(t), t ∈ T là quá trình d ng khi và ch khi:
Nh n xét: m t quá trình d ng m nh có moment c p 2 là quá trình d ng y u
Đi u ngư c l i nói chung không đúng
N u m t quá trình d ng y u là quá trình Gauss thì nó s là quá trình d ng m nh b
i phân ph i h u h n chi u c a quá trình Gauss hoàn toàn đư c xác đ nh b i hàm trung bình và hàm t hi p phương sai
Trang 9Ví d : Gi s U và V là hai đ i lư ng ng u nhiên không tương quan v i EU =
EV = 0, EU 2 = EV 2 =σ2 V iλ là m t s th c, xét quá trình
X(t) = U cosλt + V sinλt
Ta có: m(t) = cos λt.EU + sinλt.EV = 0
r(s, t) = EX(s)X(t)
= E[(U cosλs + V sinλs)(U cosλt + V sinλt)]
= E[U2 cosλs. cosλt + V 2 sinλs. sinλt
+ UV cosλs. sinλt + UV sinλs. cosλt]
=σ2(cosλs. cosλt + sinλs. sinλt) =σ2. cosλ(t − s)
V y X(t) là quá trình d ng v i hàm t hi p phương saiγ(t) =σ2. cosλt
Ví d : T ng quát hơn, gi s U1, U2, , U n và V1, V2, , V n là các đ i lư ng ng u nhiên có
Trang 10Như v y, n u N(t) là s bi n c x y ra trong kho ng th i gian (0, t) thì X(t) là
s bi n c x y ra trong kho ng th i gian có đ dài L tính t th i đi m t
Ta có:
m(t) = EX(t) = E[N (t + L) − N (t)] = (t + L)λ − tλ =λL = const
Bây gi ta tính hàm t hi p phương sai r(s, t) = cov(X(s), X(t)) c a X(t)
Ta có th gi thi t 0 ≤ s ≤ t và phân bi t hai trư ng h p:
N(s + L) − N(s) và N(t + L) − N(t) là đ c l p, do v y không tương quan, t c là r(s, t) = 0 b) s ≤ t ≤ s + L: Trong trư ng h p này ta có
Trang 12Cho {εt}∞ −∞ là quá trình n tr ng Xét quá trình t=
Trang 13T hi p phương sai c p 1
E(Y t − µ)(Y t−1 − µ) = E(εt +θεt−1)(εt−1 +θεt−2) =θσ2
T t c các t hi p phương sai l n hơn 1 đ u b ng 0
Nh n xét: Giá tr trung bình và t hi p phương sai không ph thu c vào th i
10
Trang 14gian nên MA(1) là quá trình d ng v i m i giá tr c aθ
H s tương quan th j c a quá trình, kí hi u làρj đư c đ nh nghĩa là t hi p
phương sai th j chia cho phương sai
Quá trình trung bình trư t c p q, kí hi u là MA(q) đư c đ nh nghĩa b i
θ
j
+
Trang 16Đi u này có th đư c mô t như 1 quá trình MA(∞), đ th ng nh t v sau
chúng ta s s d ngψs cho h s c a quá trình trư t c p vô h n vàθs cho h s
c a quá trình trung bình trư t c p h a h n
Ta có 1 k t qu th a nh n r ng dãy vô h n trong (1.2) s là quá trình d ng n u
M t dãy s th a mãn (1.3) g i là bình phương kh t ng, và dãy th a mãn (1.4)
đư c g i là kh t ng tuy t đ i Tính kh t ng tuy t đ i bao hàm bình phương kh t ng
12
Trang 17< ∞ Ta th y đi u ngư c l i chưa ch c đúng
Cho ví d chu i bình phương kh t ng nhưng không suy ra tính kh t ng tuy t
đ i Xétψj = 1 cho j = 1, 2, ta có 1 > 1 v i x < j đi u đó có nghĩa là
Trang 18= 1 + (−1
Trang 19Giá tr trên là h u h n khi N → ∞ Vì v y {ψj}∞ là bình phương kh t ng j=0
Trung bình và t hi p phương sai c a 1 quá trình MA(∞) v i h s kh t ng tuy t đ i có th đư c tính t 1 phép ngo i suy đơn gi n t quá trình MA(q)
Hơn th n a 1 quá trình MA(∞) v i h s kh t ng tuy t đ i thì các t hi p
phương sai th a mãn tính kh t ng tuy t đ i, t c
Trang 20Trong trư ng h p |φ| < 1 có m t quá trình d ng Y t th a mãn (1.5) d a vào đ c
trưng v vi c phân tích phương trình h i quy
(y t = w t +φw t−1 +φ2w t−2 + ) đây
w t = c +εt
Trang 22Như v y ta thu đư c giá tr trung bình m t cách r t nhanh, tuy nhiên µ s
không t n t i n u |φ| ≥ 1, lý do c a s không h p lý khi |φ| ≥ 1 là do chúng ta đã gi s là quá trình d ng, gi s này không đúng khi |φ| ≥ 1 Đ tìm moment
Trang 23Tương t nhân 2 v c a (1.8) v i (Y t−j − µ) r i l y kỳ v ng
E[(Y t − µ)(Y t−j − µ)] =φE[(Y t−1 − µ)(Y t−j − µ)] + E[εt(Y t−j − µ)] (1.10)
Nhưng s h ng (Y t−j − µ) là hàm tuy n tính c aεt−j , εt−j−1, εt−j−2, s không
tương quan v iεt Do đó s h ng cu i c a đ ng th c trên b ng 0 Hơn n a
Trang 24n m ngoài vòng tròn đơn v Khi đi u ki n này đư c th a mãn AR(2) là quá
trình d ng và ngh ch đ o c a toán t h i quy (1.12) cho b i
Ta coi (1.13) như là 1 quá trình MA(∞), theo k t qu c a quá trình MA(∞)
ph n trư c giá tr trung bình c a AR(2) là
µ = 1 −φc −φ1 2
m t cách khác đ tính, ta coi AR(2) là quá trình d ng b ng cách l y kỳ v ng
tr c ti p 2 v c a (1.11)
E(Y t) = c +φ1E(Y t−1) +φ2E(Y t−2) + E(εt) tương đương v i
µ = c +φ1µ +φ2µ + 0
Ta cũng suy ra đư c
µ = 1 −φc −φ1 2
và c = µ(1 −φ1 −φ2) Các moment c p 2 tính như sau
Thay giá tr c a c vào (1.11) ta đư c
Y t = µ(1 −φ1 −φ2) +φ1Y t−1 +φ2Y t−2 +εt
Trang 25(Y t − µ) =φ1(Y t−1 − µ) +φ2(Y t−2 − µ) +εt (1.14) Nhân 2 v c a (1.14) v i (Y t−j − µ) r i l y kỳ v ng
γj =φ1γj−1 +φ2γj− 2 (1.15)
Ta th y hàm t tương quan cũng có d ng phương trình b c 2 t h i quy gi ng
như quá trình AR(2) D dàng suy ra hàm h s t tương quan th a mãn
ρj =φ1ρj−1 +φ2ρj− 2 (1.16) Xét trư ng h p j = 1 ta có
Trang 26φ
p
γ
Trang 28và hàm h s t tương quan có d ng gi ng như phương trình t h i quy V i
M t quá trình ARMA(p, q) bao g m các s h ng t h i quy và trung bình
trư t, đư c đ nh nghĩa b i
Y t = c +φ1Y t−1 +φ2Y t−2 + +φp Y t−p
(1.22) +εt +θ1εt−1 +θ2εt−2 + +θqεt−q
Ho c d ng toán t
(1 −φ1L −φ2L2 − −φp L p)Y t = c + (1 +θ1L +θ2L2 + +θq L q)εt (1.23) Nghi m c a phương trình
Trang 29Vì v y tính d ng c a quá trình ARMA(p, q) ch ph thu c vào tham s t h i quy
(φ1, φ2, , φp) mà không ph thu c vào tham s trung bình trư t (θ1, θ2, , θp)
Ta thay c = µ(1 −φ1 −φ2 − −φp) vào phương trình (1.22) và bi n đ i như sau
Y t − µ =φ1(Y t−1 − µ) +φ2(Y t−2 − µ) + +φp(Y t−p − µ)
(1.25) +εt +θ1εt−1 +θ2εt−2 + +θqεt−q
Hàm t hi p phương sai tìm b ng cách nhân 2 v c a (1.25) v i (Y t−j − µ) r i
l y kỳ v ng Cho j > q k t qu phương trình có d ng
γj =φ1γj−1 +φ2γj−2 + +φpγj−p (1.26)
j = q + 1, q + 2,
Vì v y v i các giá tr sau q hàm t hi p phương sai (hàm h s t tương qua) là
phương trình h i quy c p p v i các h s là các tham s t h i quy c a ARMA Chú ý r
ng (1.26) s không t n t i cho trư ng h p j < q b i s tương quan gi a
θjεt−j và Y t−j Vì v y quá trình ARMA có hàm t tương quan v i j t 1 đ n q
ph c t p hơn nhi u so v i AR(p) tương ng Cho j > q và các h s t h i quy
phân bi t, hàm t hi p phương sai cho b i
γj = h1λj1 + h2λj2 + + h pλjp (1.27)
Đi u này gi ng như c u trúc c a hàm t hi p phương sai c a quá trình AR(p)
Tuy nhiên tham s h k s không gi ng g k Có 1 th v th a dư c a s tham s
hóa cho quá trình ARMA Xét ví d m t quá trình n tr ng đơn gi n
Trang 30vàθ1 = −ρ, đó là đi u quan tr ng đ tránh s c a tham s hóa
M i 1 s xác đ nh tham s hóa có th phát sinh 1 mô hình ARMA(p, q)
Xét phân tích đa th c toán t trong (1.23)
(1 −λ1L)(1 −λ2L) (1 −λp L)(Y t − µ)
(1.30)
= (1 −η1L)(1 −η2L) (1 −ηq L) Chúng ta gi s r ng |λj| < 1 cho m i j đ cho quá trình này là d ng N u
toán t t h i quy (1 −φ1L −φ2L2 − −φp L p) và toán t trung bình trư t (1 +θ1L +θ2L2 + +
θq L q) có nghi m chung nào đóλi =ηj thì 2 v c a (1.30)
đư c chia cho (1 −λi L) Ho c
tính d ng c a quá trình ARMA(p − 1, q − 1) th a mãn (1.31)
Trang 31c a Akaike và tiêu chu n thông tin Bayesian
Trong lý thuy t xác su t và lý thuy t thông tin, kho ng cách Kullblack -
Leibler là m t "đ đo" không đ i x ng dùng đ đo s khác nhau gi a hai phân b P và
Q C th hơn, đ l ch Kullback - Leibler c a Q kh i P ký hi u là KL(P || Q) là đ đo lư
ng thông tin m t đi khi dùng Q đ x p x P Chính xác hơn kho ng cách Kullback - Leibler đo s bit trung bình dư ra đ mã hóa m t m u
Trang 32khi dùng Q thay vì dùng P Khái ni m này xu t hi n trong lý thuy t thông tin
và đư c đưa ra b i Solomon Kullback và Richard Leibler năm 1951
Đ nh nghĩa 2.1.1 (i) Cho các phân ph i xác su t r i r c P và Q Kho ng cách Kullblack - Leibler c a Q t P đư c đ nh nghĩa là
KL(P ||Q) =
i
P (i) ln P (i)
Q(i) (ii) Cho các phân ph i xác su t liên t c P và Q Kho ng cách Kullback - Leibler
c a Q t P đư c đ nh nghĩa là tích phân
Trang 33Q1(x).Q2(y) khi đó
KL(P ||Q) = KL(P1||Q1) + KL(P2||Q2) (iv) Kho ng cách Kullback - Leibler c a phân ph i Q t phân ph i P không
ph i là kho ng cách thông thư ng, mà là đ đo lư ng thông tin m t đi khi dùng Q đ
x p x P
- Leibler
M c tiêu c a ph n này là tìm hi u v m i liên h gi a phương pháp h p
lý c a đ i và kho ng cách Kullback - Leibler trong hai trư ng h p đ c l p cùng phân b và trư ng h p truy h i quy Trư c h t, chúng ta b t đ u v i m t minh h a đơn
gi n đ th y đư c cách ho t đ ng c a phương pháp h p lý c c đ i, nó s d ng d li u và
m t mô hình tham s đ cung c p m t mô hình ư c lư ng
Ví d : Ư c lư ng d li u tr ng lư ng sinh th p
Trong b d li u v tr ng lư ng th p (Hosmer and Lemeshow, 1999) có m t
t ng n = 189 ph n và nh ng đ a tr m i sinh đây chúng ta ch ra cách mà phương pháp h p lý c c đ i s d ng đ ư c lư ng các tham s c a mô hình đưa
ra Các bi n k t qu Y1, , Y n đ c l p là các bi n ng u nhiên nh phân (0 - 1), t c cho giá tr là 1 khi đ a tr sinh có tr ng lư ng th p và 0 trong trư ng h p ngư c
l i Các bi n khác x2,i là tr ng lư ng c a ngư i m ; x3,i là tu i ngư i m ; x4,i ch
Trang 34v i i = 1, , n;θ là m t vectơ tham s 5 chi u hàm h p lý Λn(θ) là tích c a các
v i y obs là giá tr d li u quan sát Chúng ta thư ng làm vi c v i loga hàm h p
lý n (θ ) = log Λn(θ) thay vì hàm h p lý Ư c lư ng h p lý c c đ i c aθ làm c c
Trang 35Ư c lư ng h p lý c c đ i ˆ mà c c đ i θ n
(θ )
có xu hư ng h i t h u ch c ch n
t iθ0 là giá tr c c ti u c a kho ng cách Kullback - Leibler t mô hình th t t i m
ô
hình
v
y
ˆ
−→θ0 = argmin{KL(g,
f(., θ))}
θ a.s − θ
giá trθ0 g i
Trang 36xác
đ
nh
m vec
- chi u thư ng g i là vectơ đi m s c a môhình v i
o ngcáchKullback
- Leiblernê
Trang 37y ,
θ
0
)
d y
=0
h
p
như
v
y,
ma
tr
n
J
f (
θθθ
=
f (
θθ
(2.3)
ư c g i
là ma tr
n thông tin Fisher c
a mô hình 28
Trang 38Dư i các đi u ki n chính quy và cơ b n khác nhau, có th ch ng minh r ng
Các mô hình h i quy bao g m các quan sát (x i , Y i) Ký hi u g(y|x) là m t đ
th t cho Y |x Mô hình tham s s d ng m t đ f(y|x, θ), khi đó loga hàm h p
Trang 39M t cách đ y đ kho ng cách Kullback - Leibler đ t đư c b i tích phân KL x
theo phân ph i covarian
KL(g, fθ) = g(y|x) log g(y|x) dydC(x)
f (y|x, θ)
29
Trang 40Ư c lư ng h p lý c c đ i ˆ có xu hư ng h i t h u ch c ch n t i giá tr tham θ
Trang 4130
Trang 42Chú ý r ng J n = K n khi mô hình gi đ nh b ng v i mô hình th t và trong trư ng
h p này Jˆn và K n là các ư c lư ng c a cùng m t ma tr n ˆ
Ví d : H i quy tuy n tính chu n
Gi s Y i = x tiβ +σεi v iβ là m t vectơ p - chi u c a các h s h i quy,
Gi s r ngεi không nh t thi t là chu n nhưng có trung bình 0, đ l ch chu n
1 Sau khi tính toán d n đ n
J =σ12 n
0
Xem xét mô hình h i quy Poisson cho d li u đ c l p Y1, , Y n trong các
s h ng c a các vectơ covarian p - chi u x1, , x n mà Y i là Poisson v i tham s
ξi = exp(x tiβ) Ta có
f (Y i|x i , β) = e Y(ξi) − ξi
Y i
i!
Trang 43AIC(M) = 2 n(ˆ) − 2length(θ) = 2 θ n,max − 2length(θ) (2.5)
Trang 45đâyθ là ư c lư ng h p lý c c đ i choθ trong mô hình mũ, (ˆ, ˆ) là ư c lư ng θγ
h p lý c c đ i trong mô hình Weibull Mô hình v i giá tr l n nh t c a AIC đư c ch n như là m t thích h p nh t cho d li u
Ví d : H i quy tuy n tính
Mô hình h i quy tuy n tính truy n th ng cho phân tích d li u y i trong m i
quan h v i vectơ covarian x i = (x i,1 + + x i,p)t, v i i = 1, , n đưa đ n
Trang 46x ti là hàng th i c a ma tr n X
Hàm h p lý là
Λ n (β , σ ) =Loga hàm h p lý là
σ
−
n