Thuật toán Metropolis - Hasting đối với phân phối nhiều chiều: giớithiệu ứng dụng của thuật toán Metropolis - Hasting đối với các biến ngẫunhiên nhiều chiều bằng cập nhật từng khối, cập
Trang 1Mục lục
1.1 Suy luận Bayes 8
1.1.1 Đặc điểm mô hình Bayes 9
1.1.2 Các tiên nghiệm Jeffreys 9
1.2 Tích phân Monte Carlo 10
1.2.1 Bài toán 10
1.2.2 Xấp xỉ Monte Carlo 11
1.2.3 Monte Carlo thông qua lấy mẫu theo trọng số 12
1.3 Phương pháp sinh biến ngẫu nhiên 13
1.3.1 Phương pháp biến đổi 13
1.3.2 Phương pháp chấp nhận - bác bỏ 14
1.3.3 Phương pháp tỷ số đều 15
1.4 Xích Markov 16
1.4.1 Các định nghĩa và kí hiệu 18
1.4.2 Sự hội tụ của phân phối 19
1.4.3 Giới hạn của giá trị trung bình 19
2 MẪU GIBBS 21 2.1 Mẫu Gibbs 21
2.2 Thuật toán mở rộng dữ liệu 24
3 THUẬT TOÁN METROPOLIS-HASTINGS 27 3.1 Thuật toán Metropolis – Hastings 27
3.1.1 Khái niệm 27
Trang 23.1.2 Mẫu độc lập 29
3.1.3 Xích bước ngẫu nhiên 30
3.2 Thuật toán Metropolis- Hasting cho các phân phối nhiều chiều 30
3.2.1 Cập nhật từng khối 30
3.2.2 Cập nhật từng thành phần 34
3.3 Các dạng khác nhau của thuật toán Metropolis - Hastings 36 3.3.1 Thuật toán chạm và chạy 36
3.3.2 Thuật toán Langevin 37
3.3.3 Thuật toán đa phép thử MH 38
3.4 Thuật toán bước nhảy ngược MCMC cho bài toán lựa chọn mô hình Bayes 39
3.4.1 Thuật toán bước nhảy ngược MCMC 39
3.4.2 Xác định điểm thay đổi 43
4 Phương pháp biến phụ trợ MCMC 46 4.1 Mô phỏng nhiệt luyện 48
4.2 Mô phỏng điều hoà nhiệt 49
4.3 Thuật toán Moller 51
4.4 Thuật toán trao đổi 53
Trang 3LỜI CẢM ƠN
Luận văn này được hoàn thành với sự hướng dẫn tận tình và cũng hếtsức nghiêm khắc của TS Nguyễn Thịnh Thầy đã dành nhiều thời gianquý báu của mình để hướng dẫn cũng như giải đáp các thắc mắc của tôitrong suốt cả quá trình làm luận văn Tôi muốn tỏ lòng biết ơn chân thành
và sâu sắc nhất tới người thầy của mình
Tôi cũng muốn gửi tới toàn thể các thầy cô Khoa Toán - Cơ - Tin họctrường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội, các thầy cô
đã đảm nhận giảng dạy khóa Cao học 2011 - 2013, đặc biệt là các thầy côtham gia giảng dạy nhóm Xác suất thống kê 2011 - 2013 lời cám ơn chânthành đối với công lao dạy dỗ trong suốt thời gian của khóa học
Tôi xin cám ơn gia đình, bạn bè, đồng nghiệp và các anh chị em trongnhóm Xác suất thống kê 2011 - 2013 đã quan tâm, giúp đỡ, tạo điều kiện
và động viên tinh thần để tôi có thể hoàn thành được khóa học này
Trang 4LỜI MỞ ĐẦU
Luận văn này với mục đích trình bày về phương pháp MCMC và một
số ứng dụng của nó.Luận văn được xây dựng dựa trên lý thuyết về suyluận Bayes,tích phân Monte Carlo và xích Markov
Luận văn gồm có 4 chương:
Chương 2 Mẫu Gibbs
Giới thiệu về phương pháp lấy mẫu Gibbs và ví dụ cho trường hợp biếnngẫu nhiên nhiều chiều
Thuật toán mở rộng dữ liệu:mô tả thuật toán và một số ví dụ tươngứng
Chương 3 Thuật toán Metropolis- Hastings
Thuật toán Metropolis- Hasting: Khái niệm, mẫu độc lập, xích bướcngẫu nhiên
Thuật toán Metropolis - Hasting đối với phân phối nhiều chiều: giớithiệu ứng dụng của thuật toán Metropolis - Hasting đối với các biến ngẫunhiên nhiều chiều bằng cập nhật từng khối, cập nhật từng thành phần.Các dạng khác nhau của thuật toán Metropolis - Hasting: Thuật toánchạm và chạy, thuật toán Langevin, thuật toán đa phép thử MH
Chương 4 Phương pháp biến phụ trợ MCMC
Trang 5Giới thiệu về mặt lý thuyết một vài thuật toán của phương pháp MCMC
có sử dụng các biến phụ trợ: Phương pháp mô phỏng nhiệt luyện, môphỏng điều chỉnh nhiệt,Moller, thuật toán trao đổi, phương pháp lấy mẫu
MH kép Do thời gian gấp rút và kiến thức còn hạn chế nên luận vănkhông thể tránh khỏi những thiếu sót, vì vậy, rất mong nhận được những
ý kiến đóng góp của các thầy cô và bạn bè đồng nghiệp, xin trân trọngcám ơn
Hà Nội, tháng 11 năm 2014
Trang 6BẢNG KÝ HIỆU
MCMC: Xích Markov Monte Carlo
AD: Thuật toán mở rộng dữ liệu
AR: Thuật toán chấp nhận - bác bỏ
Trang 7Chương 1
TỔNG QUAN
1.1 Suy luận Bayes
Suy luận Bayes là một công thức suy luận xác suất Với ưu điểm là tínhtoán đơn giản và cùng với những phát triển gần đây của các phương phápxích Markov Monte Carlo(MCMC) cho việc tính xấp xỉ tích phân có sốchiều cao mà suy luận Bayes ngày càng được sử dụng rộng rãi Suy luậnBayes được bắt nguồn từ Thomas Bayes (1764), người đã rút ra xác suấtnghịch đảo của xác suất thành công θ trong một dãy các phép thử độc lậpBernoulli, trong đó θ được lấy từ phân phối đều trên khoảng (0,1)
Ví dụ 1.1 (Mô hình Bernoulli với tiên nghiệm đã biết)
Giả sử rằng θ ∼ U nif (0, 1) là phân phối đều trên khoảng (0,1),và
x1, x2, , xn là mẫu lấy từ Bernoulli (θ) với không gian mẫu X = {0, 1}
và hàm khối xác suất
Pr (X = 1 |θ ) = θ; Pr (X = 0 |θ ) = 1 − θ (1.1)trong đó X là biến ngẫu nhiên Bernoulli với X = 1 nếu thành công, và
1B(1 + N, 1 + n − N )θ
Trang 8trong đó B (◦,◦) là kí hiệu của hàm Beta
1.1.1 Đặc điểm mô hình Bayes
Theo như những nghiên cứu toán học đã biết thì để xác định mô hìnhBayes ta cần :
(i) Chỉ rõ một mô hình lấy mẫu từ dữ liệu quan sát X, có điều kiện trênmột đại lượng chưa biết θ
π (θ |X ) = R π (θ) L (θ |X )
π (θ) L (θ |X ) dθ (θ ∈ Θ) (1.5)
ở đó
L (θ |X ) ∝ f (X |θ )
trong đó δ được gọi là thống kê hợp lý của δ với X đã cho
1.1.2 Các tiên nghiệm Jeffreys
Một cách tự nhiên ta thấy rằng việc chỉ rõ mô hình Bayes chẳng khác gìviệc tổng hợp các thông tin có thể trong thực tế theo quan điểm xác suấtchính xác Đồng thời, việc chỉ rõ mô hình xác suất đối với dữ liệu quansát X là việc làm tất yếu Thêm vào đó khi xét mô hình lấy mẫu của dữliệu quan sát X đối với đại lượng chưa biết θ suy luận Bayes yêu cầu tiênnghiệm cho θ phải được xác định rõ ràng Trong trường hợp thông tin tiên
Trang 9nghiệm của θ là sẵn có và có thể biết một cách chính xác bởi một phânphối xác suất thì điều này là hiển nhiên Tuy nhiên, đối với các trườnghợp khi thông tin này là không sẵn có hoặc không dễ xác định bằng mộtphân phối xác suất chính xác, đặc biệt là đối với các bài toán với số chiềucao, khi đó phương pháp thường được sử dụng là phương pháp Jeffreys,với việc giả thiết tiên nghiệm có dạng:
Trong đó I (θ) là lượng thông tin Fisher
Ví dụ 1.2 Giả sử rằng ta xét một mẫu được lấy từ phân phối N (µ, 1)
Thông tin Fisher thu được như sau:
Trang 10Trong đó h(x) là hàm đo được Giả sử rằng ν có hàm mật độ xác suất
là hàm mật độ của thành phần X,và fY |X (y |x) là hàm mật độ có điều kiệncủa Y đối với X đã biết
Phương pháp xấp xỉ tích phân qua các mẫu mô phỏng được biết đến như
là phương pháp Monte Carlo
Trang 111.2.3 Monte Carlo thông qua lấy mẫu theo trọng số
Trong trường hợp ta gặp khó khăn khi sinh trực tiếp các mẫu từ f (x),
ta có thể sử dụng phương pháp lấy mẫu theo trọng số, phương pháp nàydựa trên phép đồng nhất sau đây:
do đó mà phương pháp này được gọi là phương pháp lấy mẫu theo trọng
số Vấn đề mấu chốt của phương pháp này là chọn g (x) thỏa mãn cả tínhđơn giản trong việc sinh ra các mẫu Monte Carlo và độ chính xác trongước lượng Ef [h (X)] bằng cách kiểm soát các sai số Monte Carlo Với độtin cậy Monte Carlo,ta cần chọn g (x) để cực tiểu phương sai của eh (X)
với X ∼ g (x) Người ta chứng minh được rằng hàm g(x) thoả mãn điềukiện trên là:
g∗(x) = |h (x)| f (x)
R
X
|h (y)| f (y) dy
Trang 121.3 Phương pháp sinh biến ngẫu nhiên
Phương pháp MC dựa trên việc lấy mẫu từ các phân phối xác suất Mặtkhác,dựa vào phân phối đều U nif (0, 1) ta có thể sinh được các số ngẫunhiên của một phân phối xác suất bất kỳ Do đó phương pháp sinh mộtmẫu độc lập cùng phân phối từ phân phối đều đơn giản nhất U nif (0, 1)
là rất quan trọng bởi vì toàn bộ các phương pháp lấy mẫu đều dựa trêncác số ngẫu nhiên đều được sinh ra
Thuật toán 1.1 (Hàm phân bố ngược liên tục)
1, Sinh ra một biến ngẫu nhiên đều U
2, Tính toán và đưa ra kết quả X = F−1(U ) trong đó F−1(.) là hàm sốngược của hàm phân bố liên tục F (.)
Thuật toán 1.2 (Hàm phân bố ngược rời rạc)
1, Sinh ra biến ngẫu nhiên đều U
1.3.1 Phương pháp biến đổi
Phương pháp biến đổi dựa trên phép biến đổi của các biến ngẫu nhiên,thuậttoán 1.1 và 1.2 là một ví dụ Tuy nhiên,ngoại trừ một vài trường hợp nhưphân phối mũ và phân phối Bernoulli thì thuật toán 1.1 và 1.2 thườngkhông hiệu quả Các phương pháp biến đổi tốt hơn thu được bằng cáchdựa vào phân phối mục tiêu f (x) Sau đây là một số ví dụ thường được
sử dụng trong thực hành
Trang 13Công thức Phép biến đổi Phân phối
Cauchy X = tan (πU − π/2)) X ∼ Cauchy(0, 1)
Beta Xiind∼ Gamma (αi) , i = 1, 2 X1
X 1 +X 2 ∼ Beta (α1, α2)1.3.2 Phương pháp chấp nhận - bác bỏ
Phương pháp chấp nhận - bác bỏ (AR) rất hữu ích trong việc sinh các
số ngẫu nhiên khi các phương pháp biến đổi trực tiếp không tồn tại hoặctính toán không hiệu quả Ta mô tả phương pháp AR thông qua một đối
số hình học
Xét mẫu có phân phối d - chiều với không gian mẫu X ⊆ Rd Theođịnh nghĩa về hàm mật độ, miền phía dưới đường cong/mặt phẳng củahàm mật độ
Cf = {(x, u) : 0 ≤ u ≤ f (x)} ⊂ Rd+1 (1.13)bằng một đơn vị thể tích.Do đó nếu (X,U) là đều trong miền Cf thì
X ∼ f (x) Chú ý rằng X ∼ f (x) vẫn đúng khi f (x) trong (1.13) đượclàm bội bởi một hằng số dương tùy ý, nghĩa là:
Ch = {(x, y) : 0 ≤ u ≤ h (x)} ⊂ Rd+1 (1.14)trong đó h (x) ∝ f (x),bởi sự thay đổi tỷ lệ trên U sẽ không ảnh hưởngđến phân phối biên của X Điều này có nghĩa là ta có thể sinh ra X bằngcác điểm mô phỏng phân phối đều trên Cf hoặc Ch Khi ta gặp khó khăn
để lấy mẫu một cách trực tiếp từ Ch,ta có thể lấy mẫu một cách gián tiếpqua Ch như sau:
(i) Sinh ra những điểm có tính đều trên một miền mở rộng và dễ dàng đểlấy mẫu D⊇ Ch và
(ii) Thu thập những điểm thuộc vào miền Ch Miền mở rộng D như vậy
có thể được xây dựng bằng một phân phối có thể lấy mẫu một cáchđơn giản với hàm mật độ g (x) thoả mãn f (x)g(x) bị chặn trên bởi một sốhằng số hữu hạn M Vì vậy Ch là đóng trong miền:
Cg = {(x, u) : 0 ≤ u ≤ g (x)} ⊂ Rd+1 (1.15)
Trang 14với h (x) ∝ f (x) Phân phối g (x) được gọi là phân phối công cụ và
f (x) là phân phối mục tiêu
Tóm lại, thuật toán AR dùng để sinh các số ngẫu nhiên từf (x) bằngcách sử dụng phân phối công cụ g (x), trong đó :
Thuật toán 1.4 (Chấp nhận - bác bỏ với hàm số kẹp)
Lặp lại hai bước sau đây cho đến khi một giá trị xuất ra trong bước 2:
Ý tưởng tổng quát của phương pháp tỷ số đều là tìm ra một cặp phépbiến đổi khả vi U = u(Y ) và X = x(Z, Y ) với U = u(Y ) tăng thực sự để
Trang 15thoả mãn (1.14) và do đó với một hằng số Jacobi thì (Y, Z) cũng đều trêntập ảnh tương ứng của Ch:
C(Y,Z)h = (y, z) : u−1(0) ≤ y = u−1(u) ≤ u−1(h (x (z, y))) ⊂ Rd+1
(1.16)trong đó u−1(.) là hàm số ngược của u(.) Điều này dẫn tới thuật toánbác bỏ tổng quát như sau:
Thuật toán 1.5
Lặp lại hai bước sau cho đến khi giá trị trả về trong bước 2:
1, Sinh (Y, Z) có độ lệch đều trên miền D ⊇C(Y,Z)h
2, Nếu (Y, Z) ∈ C(Y,Z)h , trả về giá trị X = x(Y, Z) là độ lệch mongmuốn
Thuật toán này có tỉ số chấp nhận
= u0(y)
∂x
∂z
là hệ số Jacobi của các phép biến đổi
Pr (Xt+1 ∈ A |X0 = x0, , Xt = xt) = Pr (Xt+1 ∈ A |Xt = xt) (1.17)
Trang 16với thời gian t = 0, 1, Để thuận lợi cho việc trình bày ta sử dụng kíhiệu π (dy) để chỉ độ đo xác suất π trên (X, X ) cho cả trường hợp biếnngẫu nhiên rời rạc và liên tục Với biến liên tục X, hàm mật độ f (x) của
nó là đạo hàm Radon - Nikodym của độ đo xác suất π (dx) đối với độ đoLebesgue Đối vớibiến ngẫu nhiên rời rạc X, hàm mật độf (x), là đạo hàmcủa π (dx) đối với độ đo đếm Do vậy, kí hiệu Pt(dx) cho phân phối của
Xt đối với trạng thái X tại thời điểm t Xuất phát với phân phối ban đầu
P0(dx), xích Markov {Xt} khai triển như sau:
Ý tưởng cơ bản cho việc tạo ra các xích Markov để xấp xỉ Eπ(h (X))
là xây dựng một hạch chuyển dịch P (x, dy) với π (dx) là phân phối dừng,nghĩa là P (x, dy) và π (dx) thỏa mãn điều kiện cân bằng:
f (y) =
Z
χ
p (y |x) f (x) dx
Trang 17Chú ý: Nếu với hầu hết π(x) và với mọi tập đo được A ta có:
lim
t→∞Pr (Xt ∈ A |X0 = x) = π (A) thì π(dx) được gọi là phân phối cânbằng của xích Markov
1.4.1 Các định nghĩa và kí hiệu
Định nghĩa 1.1 Cho Xn là một xích bất khả quy với phân phối dừng
π (.) và kí hiệu {Ani.o} là một dãy xuất hiện thường xuyên vô hạn, nghĩa
là P
iIAi = ∞ với xác suất 1
(a) Xích là hồi quy nếu với mọi B thoã mãn π (B) > 0,thì
Pr (Xn ∈ Bi.o |X0 = x) > 0
với mọi x và P r (Xn ∈ Bi.o |X0 = x) = 1 với hầu hết π (x)
(b) Xích là hồi quy Harris nếu P r (Xn ∈ Bi.o |X0 = x) = 1 với hầu hết
π(x)
Để xác định các dạng khác của ergodic, ta sử dụng khái niệm tổng biếnthiên khoảng cách giữa hai độ đo trên X và khái niệm thời điểm chạm.Tổng biến thiên khoảng cách giữa hai độ đo trên (X, X ) xác định bằngtổng biến thiên chuẩn của độ đo λ trên (X, X )
Trong đó cận dưới đúng của tập rỗng tiến tới ∞
Định nghĩa 1.2 Các dạng ergodic khác nhau được cho như sau:
(a) Một xích Markov được gọi là ergodic nếu nó là Harris dương hồi quy
và không tuần hoàn
(b) Cho HB là thời điểm chạm của tập B Một xích ergodic với phân phốidừng π (x) được gọi là ergodic cấp 2 nếu:
Z
B
Ex HB2π (dx) < ∞
Trang 18với mọi H ∈ X thỏa mãn π (H) > 0
(c) Một xích ergodic với phân phối dừng π (x) được gọi là ergodic hình họcnếu tồn tại một hàm số thực không âm M thỏa mãnE (|M (X)|) < ∞
và một hằng số dương r < 1 sao cho:
kPn(x, ) − πk ≤ M (x) rn ∀x
(d) Xích trong (c) được gọi là ergodic đều nếu tồn tại một hằng số M vàmột hằng số dương r < 1 sao cho
kPn(x, ) − πk ≤ M rn1.4.2 Sự hội tụ của phân phối
Tổng biến thiên khoảng cách giữa hai độ đo trên (X, X ) đã được sửdụng để mô tả sự hội tụ của một xích Markov trong định lý sau đây (Định
lý 1 của Tierney, 1994)
Định lý 1.1 Giả sử rằng P (x, dy) có π(x) là bất khả quy và dừng Khi
đó P (x, dy) là hồi quy dương và π (dx) là phân phối dừng duy nhất của
P (x, dy) Nếu P (x, dy) cũng không tuần hoàn thì với hầu hết π (x):
kPn(x, ) − πk → 0
với k.k là tổng biến thiên khoảng cách Nếu P (x, dy) là hồi quy Harris thì
nó hội tụ với mọi x
1.4.3 Giới hạn của giá trị trung bình
Định lý 1.2 Giả sử rằng Xn là ergodic với phân phối cân bằng f (x) vàgiả sử h (x) có giá trị thực và Ef (|h (X)|) < ∞ Khi đó với bất kỳ phânphối ban đầu, hn → Ef (h (X)) h.c.c
Định lý 1.3 Giả sử rằng Xn là ergodic bậc 2 với phân phối cân bằng
f (x) và giả sử h (x) có giá trị thực và bị chặn Khi đó tồn tại một số thực
σh sao cho phân phối của √
n hn− Ef (h (X)) hội tụ yếu tới phân phốichuẩn với kỳ vọng bằng 0 và phương sai σh2 với mọi phân phối ban đầu
Trang 19Giả thiết về tính bị chặn của h(x) có thể được bỏ nếu xích là ergodicđều và Ef h2(X) < ∞
Định lý 1.4 Giả sử rằng Xn là ergodic đều với phân phối cân bằng f (x)
và giả sử h (x) có giá trị thực và Ef h2(X) < ∞ Khi đó tồn tại một sốthực σh sao cho phân phối của √
n hn− Ef (h (X)) hội tụ yếu tới phânphối chuẩn với kỳ vọng 0 và phương sai σh2 với mọi phân phối ban đầu
Trang 20Chương 2
MẪU GIBBS
Trong thực tế các phương pháp lấy mẫu trực tiếp để sinh các biến ngẫunhiên nhiều chiều thường không khả thi đối với suy luận Bayes, trừ trườnghợp các mô phỏng là đơn giản Ví dụ, đối với phương pháp chấp nhận -bác bỏ hoặc các biến thể của nó như phương pháp tỷ số đều, tỷ số chấpnhận thường có kết quả 0 trong các bài toán có số chiều cao Để khắc phụckhó khăn này ta sử dụng phương pháp lấy mẫu Gibbs hay gọi đơn giản làmẫu Gibbs
2.1 Mẫu Gibbs
Giả sử rằng ta muốn sinh các số ngẫu nhiên từ hàm mật độ mục tiêu
f (x), x ∈ X ⊆ Rd Ta tiến hành phân hoạch vector d-chiều x vào K khối
và viết x = (x1, , xK)0 trong đó K ≤ d và dim (x1) + dim (xK) = d
với dim (xk) là số chiều của xk
Ta kí hiệu
fk(xk|x1, , xk−1, xk+1, , xK) (k = 1, , K) (2.1)tương ứng là tập các phân phối có điều kiện Dưới các điều kiện khôngchặt tập các phân phối có điều kiện này sẽ xác định phân phối mục tiêu
f (x)
Định lý 2.1 (Hammersley- Clifford) Nếu f (x) > 0 với mỗi x ∈ X , khi
đó phân phối đồng thời f (x) được xác định duy nhất bởi các phân phối
Trang 21điều kiện(2.1) Chính xác hơn:
với mọi hoán vị j trên {1, , n} và ∀y ∈ X.
Về mặt thuật toán mẫu Gibbs là một chương trình lấy mẫu lặp Khởiđầu với giá trị tuỳ ý x(0) trong X thoả mãn f x(0) > 0, mỗi bước lặpcủa mẫu Gibbs đều phải qua tập các phân phối có điều kiện (2.1) để sinhmột ngẫu nhiên từ mỗi fk(xk|x1, , xk−1, xk+1, , xK) bằng cách thiếtlập x1, , xk−1, xk+1, , xK tại các giá trị đã được sinh ra gần nhất củachúng
Định nghĩa 2.1 (Mẫu Gibbs) Lấy x(0) = x(0)1 , , x(0)K từ f(0)(x) với
f x(0) > 0 và lặp lại với t = 1, 2
1, Sinh ra x(t)1 ∼ f1x1
... tế phương pháp lấy mẫu trực tiếp để sinh biến ngẫunhiên nhiều chiều thường không khả thi suy luận Bayes, trừ trườnghợp mơ đơn giản Ví dụ, phương pháp chấp nhận -bác bỏ biến thể phương pháp tỷ số. .. số chấpnhận thường có kết tốn có số chiều cao Để khắc phụckhó khăn ta sử dụng phương pháp lấy mẫu Gibbs hay gọi đơn giản làmẫu Gibbs
2.1 Mẫu Gibbs
Giả sử ta muốn sinh số. .. ergodic tồn số M v? ?một số dương r < cho
kPn(x, ) − πk ≤ M rn1.4.2 Sự hội tụ phân phối
Tổng biến thiên khoảng cách hai độ đo (X, X ) s? ?dụng để mơ