LỜI MỞ ĐẦULuận văn này với mục đích trình bày về phương pháp MCMC và một số ứng dụng của nó.Luận văn được xây dựng dựa trên lý thuyết về suyluận Bayes,tích phân Monte Carlo và xích Marko
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
TRẦN THỊ BÍCH NGỌC
PHƯƠNG PHÁP MCMC
VÀ MỘT SỐ ỨNG DỤNG
TÓM TẮT LUẬN VĂN THẠC SỸ TOÁN HỌC
Chuyên ngành : LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ TOÁN HỌC
Mã số : 60 46 01 06
HÀ NỘI, 2014
Trang 2LỜI MỞ ĐẦU
Luận văn này với mục đích trình bày về phương pháp MCMC và một
số ứng dụng của nó.Luận văn được xây dựng dựa trên lý thuyết về suyluận Bayes,tích phân Monte Carlo và xích Markov
Luận văn gồm có 4 chương:
Chương 2 Mẫu Gibbs
Giới thiệu về phương pháp lấy mẫu Gibbs và ví dụ cho trường hợp biếnngẫu nhiên nhiều chiều
Thuật toán mở rộng dữ liệu:mô tả thuật toán và một số ví dụ tươngứng
Chương 3 Thuật toán Metropolis- Hastings
Thuật toán Metropolis- Hasting: Khái niệm, mẫu độc lập, xích bướcngẫu nhiên
Thuật toán Metropolis - Hasting đối với phân phối nhiều chiều: giớithiệu ứng dụng của thuật toán Metropolis - Hasting đối với các biến ngẫunhiên nhiều chiều bằng cập nhật từng khối, cập nhật từng thành phần.Các dạng khác nhau của thuật toán Metropolis - Hasting: Thuật toánchạm và chạy, thuật toán Langevin, thuật toán đa phép thử MH
Chương 4 Phương pháp biến phụ trợ MCMC
Trang 3Giới thiệu về mặt lý thuyết một vài thuật toán của phương pháp MCMC
có sử dụng các biến phụ trợ: Phương pháp mô phỏng nhiệt luyện, môphỏng điều chỉnh nhiệt,Moller, thuật toán trao đổi, phương pháp lấy mẫu
MH kép Do thời gian gấp rút và kiến thức còn hạn chế nên luận vănkhông thể tránh khỏi những thiếu sót, vì vậy, rất mong nhận được những
ý kiến đóng góp của các thầy cô và bạn bè đồng nghiệp, xin trân trọngcám ơn
Hà Nội tháng 12 năm 2014
Trang 4Chương 1
TỔNG QUAN
Chương này trình bày một số kiến thức chuẩn bị như tích phân MonteCarlo, xích Markov , những yếu tố quan trọng của phương pháp MCMC
1.1 Suy luận Bayes
Ta xét suy luận Bayes thông qua ví dụ cụ thể
Ví dụ 1.1 (Mô hình Bernoulli với tiên nghiệm đã biết)
Giả sử rằng θ ∼ U nif (0, 1) là phân phối đều trên khoảng (0,1),và
x1, x2, , xn là mẫu lấy từ Bernoulli (θ) với không gian mẫu X = {0, 1}
và hàm khối xác suất
Pr (X = 1 |θ ) = θ; Pr (X = 0 |θ ) = 1 − θ (1.1)trong đó X là biến ngẫu nhiên Bernoulli với X = 1 nếu thành công, và
1B(1 + N, 1 + n − N )θ
(1+N )−1(1 − θ)(1+n−N )−1 (0 ≤ θ ≤ 1) (1.2)trong đó B (◦,◦) là kí hiệu của hàm Beta
Trang 51.1.1 Đặc điểm mô hình Bayes
Theo như những nghiên cứu toán học đã biết thì để xác định mô hìnhBayes ta cần :
(i) Chỉ rõ một mô hình lấy mẫu từ dữ liệu quan sát X, có điều kiện trênmột đại lượng chưa biết θ
trong đó δ được gọi là thống kê hợp lý của δ với X đã cho
1.1.2 Các tiên nghiệm Jeffreys
Đối với các trường hợp khi thông tin này là không sẵn có hoặc không
dễ xác định bằng một phân phối xác suất chính xác, đặc biệt là đối vớicác bài toán với số chiều cao, khi đó phương pháp thường được sử dụng làphương pháp Jeffreys, với việc giả thiết tiên nghiệm có dạng:
πJ (θ) ∝ |I (θ)|12 (θ ∈ Θ) (1.6)Trong đó I (θ) là lượng thông tin Fisher Phân phối hậu nghiệm tương ứngcủa θ cho bởi X như sau:
Trang 61.2 Tích phân Monte Carlo
Phương pháp xấp xỉ tích phân qua các mẫu mô phỏng được biết đến như
là phương pháp Monte Carlo
Trang 71.2.3 Monte Carlo thông qua lấy mẫu theo trọng số
1.3 Phương pháp sinh biến ngẫu nhiên
Thuật toán 1.1 (Hàm phân bố ngược liên tục)
1, Sinh ra một biến ngẫu nhiên đều U
2, Tính toán và đưa ra kết quả X = F−1(U ) trong đó F−1(.) là hàm sốngược của hàm phân bố liên tục F (.)
Thuật toán 1.2 (Hàm phân bố ngược rời rạc)
1, Sinh ra biến ngẫu nhiên đều U
2, Tìm X thỏa mãn F (X − 1) < U ≤ F (X)
3, Trả lại giá trị X
1.3.1 Phương pháp biến đổi
Các phương pháp biến đổi tốt hơn thu được bằng cách dựa vào phânphối mục tiêu f (x)
Công thức Phép biến đổi Phân phối
Cauchy X = tan (πU − π/2)) X ∼ Cauchy(0, 1)
Beta Xiind∼ Gamma (αi) , i = 1, 2 X1
X 1 +X 2 ∼ Beta (α1, α2)
Trang 81.3.2 Phương pháp chấp nhận - bác bỏ
Xét mẫu có phân phối d - chiều với không gian mẫu X ⊆ Rd Theođịnh nghĩa về hàm mật độ, miền phía dưới đường cong/mặt phẳng củahàm mật độ
Cf = {(x, u) : 0 ≤ u ≤ f (x)} ⊂ Rd+1 (1.11)bằng một đơn vị thể tích.Do đó nếu (X,U) là đều trong miền Cf thì
X ∼ f (x) Chú ý rằng:
Ch = {(x, y) : 0 ≤ u ≤ h (x)} ⊂ Rd+1 (1.12)trong đó h (x) ∝ f (x),bởi sự thay đổi tỷ lệ trên U sẽ không ảnh hưởngđến phân phối biên của X Khi ta gặp khó khăn để lấy mẫu một cách trựctiếp từ Ch,ta có thể lấy mẫu một cách gián tiếp qua Ch như sau:
(i) Sinh ra những điểm có tính đều trên một miền mở rộng và dễ dàng đểlấy mẫu D⊇ Ch và
(ii) Thu thập những điểm thuộc vào miền Ch Miền mở rộng D như vậy
có thể được xây dựng bằng một phân phối có thể lấy mẫu một cáchđơn giản với hàm mật độ g (x) thoả mãn f (x)g(x) bị chặn trên bởi một sốhằng số hữu hạn M Vì vậy Ch là đóng trong miền:
Cg = {(x, u) : 0 ≤ u ≤ g (x)} ⊂ Rd+1 (1.13)với h (x) ∝ f (x) Phân phối g (x) được gọi là phân phối công cụ và
f (x)là phân phối mục tiêu Tóm lại, thuật toán AR dùng để sinh các
số ngẫu nhiên từ f (x) bằng cách sử dụng phân phối công cụ g (x),trong đó :
Trang 9Thuật toán 1.4 (Chấp nhận - bác bỏ với hàm số kẹp).
Lặp lại hai bước sau đây cho đến khi một giá trị xuất ra trong bước 2:
Lặp lại hai bước sau cho đến khi giá trị trả về trong bước 2:
1, Sinh (Y, Z) có độ lệch đều trên miền D ⊇C(Y,Z)h
2, Nếu (Y, Z) ∈ C(Y,Z)h , trả về giá trị X = x(Y, Z) là độ lệch mongmuốn
Thuật toán này có tỉ số chấp nhận
= u0(y)
∂x
∂z
là hệ số Jacobi của các phép biến đổi
1.4 Xích Markov
Xích Markov là một dãy các biến ngẫu nhiên {Xi, i = 0, 1, 2 } với tínhMarkov được cho bởi trạng thái hiện tại, trạng thái tương lai, trạng tháiquá khứ là độc lập, nghĩa là với mọi tập đo được A ⊆ X:
Pr (Xt+1 ∈ A |X0 = x0, , Xt = xt) = Pr (Xt+1 ∈ A |Xt = xt) (1.14)
Trang 10với thời giant = 0, 1, kí hiệu Pt(dx) cho phân phối của Xt đối với trạngthái X tại thời điểm t.
1.4.1 Các định nghĩa và kí hiệu
Định nghĩa 1.1 Cho Xn là một xích bất khả quy với phân phối dừng
π (.) và kí hiệu {Ani.o} là một dãy xuất hiện thường xuyên vô hạn, nghĩa
là P
iIAi = ∞ với xác suất 1
(a) Xích là hồi quy nếu với mọi B thoã mãn π (B) > 0,thì
Pr (Xn ∈ Bi.o |X0 = x) > 0
với mọi x và P r (Xn ∈ Bi.o |X0 = x) = 1 với hầu hết π (x)
(b) Xích là hồi quy Harris nếu P r (Xn ∈ Bi.o |X0 = x) = 1 với hầu hết
π(x)
Định nghĩa 1.2 Các dạng ergodic khác nhau được cho như sau:
(a) Một xích Markov được gọi là ergodic nếu nó là Harris dương hồi quy
và không tuần hoàn
(b) Cho HB là thời điểm chạm của tập B Một xích ergodic với phân phốidừng π (x) được gọi là ergodic cấp 2 nếu:
Z
B
Ex HB2π (dx) < ∞
với mọi H ∈ X thỏa mãn π (H) > 0
(c) Một xích ergodic với phân phối dừng π (x) được gọi là ergodic hình họcnếu tồn tại một hàm số thực không âm M thỏa mãnE (|M (X)|) < ∞
và một hằng số dương r < 1 sao cho:
kPn(x, ) − πk ≤ M (x) rn ∀x
(d) Xích trong (c) được gọi là ergodic đều nếu tồn tại một hằng số M vàmột hằng số dương r < 1 sao cho
kPn(x, ) − πk ≤ M rn
Trang 111.4.2 Sự hội tụ của phân phối
Định lý 1.1 Giả sử rằng P (x, dy) có π(x) là bất khả quy và dừng Khi
đó P (x, dy) là hồi quy dương và π (dx) là phân phối dừng duy nhất của
P (x, dy) Nếu P (x, dy) cũng không tuần hoàn thì với hầu hết π (x):
kPn(x, ) − πk → 0
với k.k là tổng biến thiên khoảng cách Nếu P (x, dy) là hồi quy Harris thì
nó hội tụ với mọi x
1.4.3 Giới hạn của giá trị trung bình
Định lý 1.2 Giả sử rằng Xn là ergodic với phân phối cân bằng f (x) vàgiả sử h (x) có giá trị thực và Ef (|h (X)|) < ∞ Khi đó với bất kỳ phânphối ban đầu, hn → Ef (h (X)) h.c.c
Định lý 1.3 Giả sử rằng Xn là ergodic bậc 2 với phân phối cân bằng
f (x) và giả sử h (x) có giá trị thực và bị chặn Khi đó tồn tại một số thực
σh sao cho phân phối của √
n hn− Ef (h (X)) hội tụ yếu tới phân phốichuẩn với kỳ vọng bằng 0 và phương sai σh2 với mọi phân phối ban đầu.Giả thiết về tính bị chặn của h(x) có thể được bỏ nếu xích là ergodicđều và Ef h2(X) < ∞
Định lý 1.4 Giả sử rằng Xn là ergodic đều với phân phối cân bằng f (x)
và giả sử h (x) có giá trị thực và Ef h2(X) < ∞ Khi đó tồn tại một sốthực σh sao cho phân phối của √
n hn− Ef (h (X)) hội tụ yếu tới phânphối chuẩn với kỳ vọng 0 và phương sai σh2 với mọi phân phối ban đầu
Trang 12Giả sử rằng ta muốn sinh các số ngẫu nhiên từ hàm mật độ mục tiêu
f (x), x ∈ X ⊆ Rd Ta tiến hành phân hoạch vector d-chiều x vào K khối
và viết x = (x1, , xK)0 trong đó K ≤ d và dim (x1) + dim (xK) = d
với dim (xk) là số chiều của xk
Ta kí hiệu
fk(xk|x1, , xk−1, xk+1, , xK) (k = 1, , K) (2.1)tương ứng là tập các phân phối có điều kiện Dưới các điều kiện khôngchặt tập các phân phối có điều kiện này sẽ xác định phân phối mục tiêu
f (x)
Định lý 2.1 (Hammersley- Clifford) Nếu f (x) > 0 với mỗi x ∈ X , khi
đó phân phối đồng thời f (x) được xác định duy nhất bởi các phân phốiđiều kiện(2.1) Chính xác hơn:
với mọi hoán vị j trên {1, , n} và ∀y ∈ X.
Định nghĩa 2.1 (Mẫu Gibbs) Lấy x(0) = x(0)1 , , x(0)K từ f(0)(x) với
f x(0) > 0 và lặp lại với t = 1, 2
Trang 13x(t)1 , , x(t)K−1
Ví dụ 2.1 (Phân phối chuẩn của biến ngẫu nhiên nhiều chiều)
Để minh hoạ cho mẫu Gibbs, ta dùng phân phối chuẩn hai chiều
Trang 14Hình 2.1: Mẫu Gibbs đối với phân phối chuẩn hai chiều
2.2 Thuật toán mở rộng dữ liệu
Thuật toán DA: mẫu Gibbs hai bước
Lấy θ(0) ∈ Θ và lặp lại với t = 1, 2,
Bước I Chỉ ra Xmis(t) ∼ fmis Xmisθ(t−1), Xobs
Bước P Chỉ ra θ(t) ∼ pθ
Xobs, Xmis(t)
Trang 15
3.1 Thuật toán Metropolis – Hastings
Trang 16Hasting(1970) đã tổng quát thuật toán Metropolis bằng cách chấp nhậncác phân phối đề nghị là không đối xứng và đưa ra thuật toán Metropolis
Định lý 3.1 Xích độc lập là ergodic đều nếu tồn tại một hằng số M saocho
f (x) ≤ M g (x) (x ∈ {x : f (x) > 0})3.1.3 Xích bước ngẫu nhiên
Xích bước ngẫu nhiên được tạo nên bằng cách lấy phân phối có điềukiện có dạng:
Trang 173.2 Thuật toán Metropolis- Hasting cho các phân
phối nhiều chiều
Sinh ra u từ phân phối đều U(0,1)
Nếu u ≤ α, chấp nhận phân phối đề nghị và đặt x(t) = x∗, ngược lạiđặt x(t) = x(t−1)
Ví dụ 3.1 Giả sử ta muốn lấy mẫu từ phân phối mũ hai chiều:
p (θ1, θ2) = exp (− (λ1 + λ) θ1 − (λ2 + λ) θ2 − λ max (θ1, θ2))
Ta giới hạn khoảng θ1 và θ2 là [0,8] và đặt λ1 = 0, 5; λ2 = 0, 1; λ +
0, 01; max(λ1, λ2) = 8
Trang 18Hình 3.1: Thuật toán MH đối với cập nhật từng khối đối với phân phối mũ hai chiều
Ví dụ 3.2 Phân phối chuẩn hai chiều
ta có thể thấy rằng cập nhật từng khối mô tả khá tốt việc tạo ra các mẫu
từ phân phối mục tiêu
Trang 19Hình 3.2: Thuật toán MH đối với cập nhật từng khối đối với phân phối chuẩn hai chiều
Trang 203.3.1 Thuật toán chạm và chạy
Định nghĩa 3.3 Thuật toán nhấn và chạy
Trang 212, Sinh ra U từ U nif (0, 1) và đặt:
X(t+1) =
x + λd,nếuU ≤ α (x, y)
x,nếu ngược lại
3.3.2 Thuật toán Langevin
Định nghĩa 3.4 Thuật toán Langevin
3.3.3 Thuật toán đa phép thử MH
Định nghĩa 3.5 Phép biến đổi MTM
1 Sinh ra y1, , yk độc lập cùng phân phối từ q (y |x) và ωi = ω (yi, x)
Trang 223.4 Thuật toán bước nhảy ngược MCMC cho bài
toán lựa chọn mô hình Bayes
3.4.1 Thuật toán bước nhảy ngược MCMC
Định nghĩa 3.6 Thuật toán bước nhảy ngược MCMC
1 Chọn mẫu Mk∗ với xác suất q k(t), k∗
∂ (θk∗∗, u∗)
∂θk(t), u
(3.2)
trong đó ∂(θ∗k∗,u∗)
∂(θ(t)k ,u) là Jacobi của phép biến đổi (3.10)
5 Đặt X(t+1) = (k∗, θk∗∗) với xác suất min (1, r) và X(t+1) = Xt với xácsuất còn lại
3.4.2 Xác định điểm thay đổi
Xét ứng dụng sau đây của RJMCMC cho bài toán xác định điểm thayđổi Đặt Z = (z1, , zn) là dãy quan sát độc lập Đặt ϑ = (ϑ1, , ϑn−1) làchỉ số của điểm thay đổi, một vector nhị phân với ϑc1 = = ϑck = 1 và
0 nếu ngược lại Nghĩa là,
Trang 23a, Đặtj = k − 1 j = k hoặc j = k + 1theo xác suất qk,j trong đó qk,k = 13
với kmin ≤ k ≤ kmax qkmin,kmin+1 = qkmax,kmax−1 = 23vqk,k+1 = qk,k−1 = 13
kmin < k < kmax
b, Nếu j = k, cập nhật ϑt(k,l) bằng dịch chuyển đồng thời Nếu j = k + 1,cập nhậtϑt(k,l)bằng dịch chuyển ’sinh’ và nếu j = k-1, cập nhật ϑt(k,l)
bằng dịch chuyển ’tử’
Trang 24Chương 4
Phương pháp biến phụ trợ MCMC
Trong chương này ta xét sự tồn tại các công thức phụ trợ MCMC
4.1 Mô phỏng nhiệt luyện
Định nghĩa 4.1 Thuật toán mô phỏng nhiệt luỵện
1 Khởi tạo mô phỏng tại nhiệt độ T1 và một mẫu bất kỳ x0
2 Tại mỗi nhiệt độ Ti, mô phỏng của phân phối f (x, Ti) với Ni bước lặp
sử dụng một mẫu MCMC Thông qua mẫu cuối cùng tới mức nhiệt
độ thấp hơn tiếp theo như là mẫu khởi tạo
4.2 Mô phỏng điều hoà nhiệt
Định nghĩa 4.2 Mô phỏng điều hoà nhiệt
1 Sinh ra một số ngẫu nhiên U ∼ U nif orm [0, 1] và xác định giá trịcủa j theo ma trận truyền đề nghị (qij)
2 Nếu j = it đặt it+1 = it được sinh ra từ một hạch MH Kit(x, y) vớithừa nhận f (x, Tit) là phân phối dừng
3 Nếu j 6= it, đặt xt+1 = xt và chấp nhận đề nghị với xác suất :
Trang 25Mô phỏng điều hoà nhiệt có ứng dụng thành công trong nhiều hệ thốngphức tạp, như xếp protein và thiết kế mặt bằng sàn.
4.3 Thuật toán Moller
Định nghĩa 4.3 Thuật toán Moller
1 Sinh ra θ0 từ phân phối đề nghị q (θ0|θt)
2 Sinh ra một mẫu chính xác y0từ phân phối f (y |θ0)
3 Chấp nhận (θ0, y0) với xác suất min (1, r) trong đó:
r =
f (x |θ0) f (θ0) f y0
θbq (θt|θ0) f (y |θt)
f (x |θt) f (θt) f y
θbq (θ0|θt) f (y0|θ0)
Nếu điều kiện trên thỏa mãn đặt (θt+1, yt+1) = (θ0, y0), ngược lại tađặt (θt+1, yt+1) = (θt, yt)
4.4 Thuật toán trao đổi
Định nghĩa 4.4 Thuật toán trao đổi:
... thỏa mãn π (H) >(c) Một xích ergodic với phân phối dừng π (x) gọi ergodic hình họcnếu tồn hàm số thực không âm M thỏa mãnE (|M (X)|) < ∞
và số dương r < cho:
kPn(x,...
kPn(x, ) − πk ≤ M (x) rn ∀x
(d) Xích (c) gọi ergodic tồn số M v? ?một số dương r < cho
kPn(x, ) − πk ≤ M rn
Trang... đổiXét ứng dụng sau RJMCMC cho toán xác định điểm thayđổi Đặt Z = (z1, , zn) dãy quan sát độc lập Đặt ϑ = (ϑ1, , ϑn−1) làchỉ số điểm thay đổi,