Phân phối của biến ngẫu nhiên X được lấy mẫu trongphương pháp loại bỏ như trên có mật độ f x... Nếu giá của f không bị chặn thì để có thể tìm thấy cận M, mật độ Ta đã biết cách lấy mẫu m
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
-
NGUYỄN VĂN TÂN
THUẬT TOÁN MÔ PHỎNG MCMC THÍCH
NGHI VÀ ỨNG DỤNG
Chuyên ngành: Lý thuyết xác suất và thống kê toán học
Mã số: 60460106
LUẬN VĂN THẠC SĨ KHOA HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS TRẦN MẠNH CƯỜNG
Trang 2Mục lục
1.1 Sự hội tụ của dãy đại lượng ngẫu nhiên 5
1.2 Dãy mixingale 6
1.3 Các thuật toán mô phỏng cơ bản 7
1.3.1 Phương pháp biến đổi nghịch đảo 8
1.3.2 Phương pháp loại bỏ 9
1.3.3 Phương pháp lấy mẫu quan trọng 13
1.4 Xích Markov 15
2 Phương pháp MCMC 22 2.1 Giới thiệu 22
2.2 Mẫu Metropolis - Hastings 23
2.3 Một số thuật toán MCMC 29
2.3.1 Mẫu Gibbs 29
2.3.2 Mẫu độc lập 30
2.3.3 Mẫu Metropolis - Hastings du động ngẫu nhiên 32
2.3.4 Mẫu Metropolis (thành phần đơn) 33
3 MCMC thích nghi 34 3.1 Thuật toán Metropolis du động ngẫu nhiên thích nghi 35
3.1.1 Mô tả thuật toán 35
3.1.2 Tính chất ergodic 37 3.1.3 So sánh các thuật toán Metropolis với thuật toán AP 38
Trang 33.2 Thuật toán Metropolis thích nghi 423.2.1 Mô tả thuật toán 453.2.2 Tính Ergodic 473.2.3 So sánh các thuật toán Metropolis với thuật toán AM 593.3 Một số ứng dụng của MCMC thích nghi 593.3.1 Mô hình mô phỏng GOMOS 603.3.2 Mô hình suy giảm oxy 65
Trang 4Lời nói đầu
Để tìm hiểu về MC, ta xét bài toán sau: Giả sử ta cần tính tích phân
1
0 = F (1) − F (0)
Tuy nhiên, trong nhiều trường hợp, ta không thể tìm được F(x) Giả sử
f (x) là hàm mật độ trên [0, 1] sao cho nếu h(x) 6= 0 thì f (x) > 0 Ta viếtlại I = R01 h(x)f (x)f (x)dx Khi đó, chúng ta lấy mẫu độc lập cùng phân phối
(x(1), , x(n)) từ phân phối xác định bởi mật độ f và xét:
ˆ
In = 1n
n
X
i=1
h(x(i))/f (x(i))
Luật số lớn cho ta thấy rằng Iˆn hội tụ với xác suất 1 tới tích phân I khi n
tiến tới ∞ nghĩa là Iˆ
n → I(h.c.c) Như vậy để tính xấp xỉ I, ta phải thựchiện n mô phỏng cho biến ngẫu nhiên X
Các mô phỏng MC cơ bản này có ưu điểm là dễ thực hiện Tuy nhiên,
nó chỉ mô phỏng được đối với các trường hợp đơn giản
Trong nhiều trường hợp phức tạp như số chiều tăng lên (phân phốinhiều chiều) thì các MC cơ bản không thể thực hiện được Đề giải quyếtvấn đề này, chúng ta đưa ra một phương pháp gọi là phương pháp MCMC
Ý tưởng chính của phương pháp MCMC là đi xây dựng một xích Markov
có tính ergodic mà phân phối dừng là π Khi đó, chúng ta chạy X lên đếnthời gian dài N và ước lượng E(h(Y )) bởi N1 PN
n=1h(Xn) Định lý ergodiccho ta biết với N đủ lớn, ước lượng trên sẽ gần đến E(h(Y ))
Chúng ta thấy rằng việc chọn lựa phân phối đề xuất là quan trọng cho
Trang 5sự hội tụ của thuật toán MCMC Việc chọn lựa được phân phối đề xuấttốt thường khó thực hiện vì thông tin về mật độ mục tiêu là không cóhoặc rất ít Hơn nữa, trong thuật toán MCMC, phân phối đề xuất đượcchọn cho mọi bước mô phỏng Để sử dụng các thông tin đã thu được trongcác bước mô phỏng trước để mô phỏng cho bước tiếp theo, chúng ta đưa
ra thuật toán MCMC thích nghi Ở đó, phân phối đề xuất được cập nhậtcùng quá trình sử dụng thông tin đầy đủ tích lũy cho đến thời điểm hiệntại Mỗi lựa chọn phân phối đề xuất thích nghi sẽ cho chúng ta một dạngMCMC thích nghi
Mục đích chính của luận văn này là trình bày các phương pháp MCMC
cơ bản và hai thuật toán MCMC thích nghi từ bài báo [6], [7] Đồng thờiđưa ra các so sánh giữa các thuật toán MCMC và chứng minh chi tiết cácđịnh lý trong bài báo cũng như đưa ra một số ứng dụng của thuật toán.Luận văn gồm 3 chương
• Chương 1 nhắc lại một số kiến thức bổ trợ về sự hội tụ của dãy đạilượng ngẫu nhiên, dãy mixingale, các thuật toán mô phỏng MC cơbản và xích Markov
• Chương 2 trình bày về các phương pháp MCMC cơ bản
• Chương 3 trình bày chi tiết về hai phương pháp MCMC thích nghi từhai bài báo [6] và [7] Đó là thuật toán Metropolis du động ngẫu nhiênthích nghi ([6]) và thuật toán Metropolis thích nghi ([7]) Chỉ ra tínhhội tụ của hai thuật toán và chứng minh tính ergodic của thuật toánMetropolis thích nghi Sau mỗi thuật toán đều đưa ra sự so sánh giữacác thuật toán MCMC Đồng thời đưa ra một số ứng dụng thực tếcủa mô hình MCMC thích nghi
Lời đầu tiên, xin chân thành cảm ơn thầy TS Trần Mạnh Cường đãnhận hướng dẫn và tận tình giúp đỡ tôi hoàn thành luận văn này Lòng biết
ơn sâu sắc tôi cũng xin được gửi đến các thầy cô trong Trường ĐHKHTN
- ĐHQGHN, Khoa Toán - Cơ - Tin đã giúp đỡ tôi hoàn thành khóa học
Hà Nội tháng 12 năm 2015
Trang 6Chương 1
Kiến thức chuẩn bị
1.1 Sự hội tụ của dãy đại lượng ngẫu nhiên
Giả sử (Ω, F , P ) là không gian xác suất
Định nghĩa 1.1 Một dãy các đại lượng ngẫu nhiên hay biến ngẫu nhiên
(Xn) được gọi là hội tụ hầu chắc chắn đến biến ngẫu nhiên X nếu:
Trang 7Định nghĩa 1.4 Một dãy các biến ngẫu nhiên (Xn) được gọi là hội tụ theotrung bình bậc r đến biến ngẫu nhiên X nếu r ≥ 1, E|Xn|r < ∞ ∀n,
Trang 81.3 Các thuật toán mô phỏng cơ bản
Các kết quả thống kê thường liên quan đến tích phân Nhắc lại rằng cả
kỳ vọng và xác suất đều nhận được từ tích phân (hoặc tổng) Vì vậy, xéttích phân sau:
I =
Z 1 0
h(x)dx
Thông thường, người ta tiếp cận dạng tổng Riemann Chúng ta đánhgiá hàm h(x) tại n điểm (x(1), , x(n)) trong một lưới chính quy và sau đótính:
I ≈ 1n
n
X
i=1
h(x(i))
Tuy nhiên, trong nhiều trường hợp, việc xác định lấy các điểm(x(1), , x(n))
là không thể hoặc chi phí quá tốn kém, người ta đã đưa ra một cách tiếpcận khác Đó là quá trình Monte Carlo Chúng ta bắt đầu bằng việc viếtlại tích phân như sau:
I =
Z 1 0
ˆ
In = 1n
n
X
i=1
h(x(i))/f (x(i))
Luật số lớn cho ta thấy rằng Iˆn hội tụ với xác suất 1 tới tích phân I khi
n tiến tới ∞ nghĩa là Iˆn → I(h.c.c) Hơn nữa, định lý giới hạn trung tâmchỉ ra rằng
( ˆIn − I)/
q
V ar( ˆIn)
Trang 9xấp xỉ phân phối chuẩn Vì vậy phương sai V ar( ˆIn) cho ta biết về độ chínhxác ước lượng của chúng ta và nó có thể được ước lượng như sau:
vn = 1n(n − 1)
n
X
j=1
(h(xj)/f (xj) − ˆIn)2
1.3.1 Phương pháp biến đổi nghịch đảo
Định lí 1.9 Xét hàm phân phối lũy tích (cdf) F (x) Gọi F−1 là nghịchđảo mở rộng của F, tức là:
F−1(u) = min{x ∈ S : F (x) ≥ u} u ∈ (0, 1]
Gọi U là một biến ngẫu nhiên phân phối đều (0, 1) và đặt X = F−1(U ),khi đó phân phối của X có cdf F (x) (Chú ý rằng đối với hàm phân phốiliên tục thì nghịch đảo mở rộng là nghịch đảo thông thường)
Bằng định nghĩa của nghịch đảo mở rộng và tính đơn điệu của F, tacó:
Trang 10Ví dụ 1.2 Mô phỏng biến ngẫu nhiên có phân phối Bernoulli (p)
và biến ngẫu nhiên có phân phối nhị thức B(n, p)
Cho U là một biến ngẫu nhiên phân phối đều (0, 1) Nếu ta xét
p
Cho X1, , Xn là một mẫu độc lập cùng phân phối Bernoulli(p) Khi
đó Y = Pn
i=1Xi có phân phối nhị thức B(n, p)
Ví dụ 1.3 Mô phỏng biến ngẫu nhiên tuân theo phân phối hìnhhọc (p)
Giả sử X nhận giá trị trong N và P(X = j) = pj Khi đó:
Ký hiệu [a] là phần nguyên của a thì X =
h
log(U ) log(1−p)
ituân theo phân phốihình học G(p)
1.3.2 Phương pháp loại bỏ
Giả sử chúng ta muốn lấy mẫu X là một biến ngẫu nhiên liên tục vớihàm mật độf (x) Chúng ta không biết cách lấy mẫu từ X nhưng chúng tabiết cách lấy mẫu từ một biến ngẫu nhiênY tương tự với hàm mật độ g(y).Gọi giá của f là supp(f ) = {x : f (x) > 0} Nếu ta có supp(f ) ⊆ supp(g)
Trang 11và f (x)/g(x) ≤ M ∀x thì ta có thể lấy mẫu từ Y để tạo ra mẫu cho X.Chúng ta lặp lại các bước sau cho đến khi một mẫu được trả về.
• Bước 1: Lấy mẫu Y = y từ g(y) và U = u từ phân phối đều U(0, 1).Sang bước 2
• Bước 2: Nếu u ≤ M g(y)f (y) thì đặt X = y Ngược lại, quay lại bước 1.Mệnh đề 1.10 Phân phối của biến ngẫu nhiên X được lấy mẫu trongphương pháp loại bỏ như trên có mật độ f (x)
Trang 12lặp, chúng ta tạo ra một mẫu với xác suất P(U ≤ M g(Y )f (Y ) ) = M1 nên tổng
số lần lặp tuân theo phân phối hình học với tham số 1/M Do vậy trungbình cần số lần lặp là M Chú ý sau đây:
1 Cận M nhỏ hơn thì thuật toán hiệu quả hơn trong tổng số lần lặp
Vì vậy chúng ta nên tìm kiếm một mật độ g gần f
2 Nếu giá của f không bị chặn thì để có thể tìm thấy cận M, mật độ
Ta đã biết cách lấy mẫu một biến ngẫu nhiên phân phối mũ vì thế chúng
ta chọn mật độ g là mật độ của một phân phối mũ với tham số 1 Khi đó:
Thuật toán lấy mẫu loại bỏ tiến hành như sau:
• Bước 1: Lấy mẫu Y = y từ phân phối mũ E(1) và U = u từ phânphối đều U (0, 1) Đến bước 2
• Bước 2: Nếu u ≤ exp−(y−1)2 2 thì đặt X = y Ngược lại, trở lạibước 1
Ví dụ 1.5 Xét một biến ngẫu nhiên Y với mật độ g(x) được xác địnhtrên không gian trạng thái S Bây giờ, giả sử A ⊂ S và chúng ta muốn lấy
Trang 13mẫu biến ngẫu nhiên có điều kiện X = (Y |Y ∈ A) với không gian trạngthái A Trong trường hợp này mẫu loại bỏ có thể hoàn thành bởi lấy mẫulặp đi lặp lại X cho đến khi mẫu của chúng ta nằm trong A Cụ thể hơn,
để đưa ra quyết định này
Nếu đánh giá mật độ mục tiêu f là tốn kém thì phương pháp loại bỏ cóthể dùng máy điện toán ít tốn kém hơn Nếu thêm cận trên M g(x) trênmật độ mục tiêu f (x)thì chúng ta cũng có thể dễ dàng ước lượng cận dưới
h(x) Vì thế gọi là thuật toán lấy mẫu loại bỏ hình bao, tiến hành nhưsau:
1 Giả sử Y = y từ g(y) và U = u từ phần phối đều U (0, 1)
2 Chấp nhận nếu u ≤ h(y)/M g(y) và đặt X = y là một mẫu Ngượclại, đi đến bước 3
3 Chấp nhận nếuu ≤ f (y)/M g(y) và trả lại X = y là một mẫu Ngượclại đi đến bước 1
Điều này hiệu quả hơn vì trung bình ta cần 1/M R h(x)dx lần lặp đánhgiá của f được thay thế bởi đánh giá của h Hàm h có thể được tìm thấytrong ví dụ bởi khai triển Taylor
Trang 141.3.3 Phương pháp lấy mẫu quan trọng
Trong đoạn trước ta đã đưa ra lấy mẫu loại bỏ, sử dụng mật độ đề xuất
để tạo ra mẫu từ mật độ mục tiêu Trong đoạn này, chúng ta vấn tiếp tụclấy mẫu của mật độ mục tiêu nhưng thay đổi cách đánh giá tạo ra ướclượng không chệch của các đặc tính của mật độ mục tiêu
Nhắc lại cái mà ta đang quan tâm khi thảo luận về phương pháp MonteCarlo là tích phân
trong đó, g là một mật độ sao cho g(x) > 0 với f (x)h(x) 6= 0 Bây giờ,chúng ta tạo ra một mẫu độc lập cùng phân phối (x1, , xn) từ g và ướclượng I bởi:
ˆ
I = 1n
n
X
i=1
f (xi)g(xi)h(xi) =
1n
Có hai lý do tại sao chúng ta quan tâm đến biểu diễn mẫu quan trọng:
1 Lấy mẫu từ f (x) là không thể hoặc quá đắt đỏ
2 h(x), trong đó X ∼ f, có phương sai lớn, vì thế ước lượng khôngchệch theo quy ước có sai số Monte Carlo (MC) lớn
Phương sai của một ước lượng quan trọng sẽ chỉ hữu hạn nếu ước lượng
Trang 15Do đó, phương sai sẽ thường vô hạn nếu tỷ số f (x)/g(x)không bị chặn.Dẫn đến, nếu có thể, chúng ta nên chọn mật độ đề xuất g có đuôi dày hơn
f Tóm lại, nếu f (x)/g(x) không bị chặn thì thậm chí nếu phương sai củaước lượng thống kê là hữu hạn, thủ tục lấy mẫu là không hiệu quả cũngnhư phương sai của trọng số quan trọng là lớn
Thay vì ước lượng quan trọng I =ˆ 1
n
Pn i=1w(xi)h(xi), ước lượng tỷ lệsau đây thường được sử dụng
˜
I =
Pn j=1h(xj)w(xj)
Pn j=1w(xj) .
Ước lượng này có hai lợi thế:
1 Nó là ước lượng không chệch, thường có phương sai nhỏ hơn ước lượngquan trọng, đưa vào dễ dàng hơn Nhưng chú ý rằng ước lượng nàyvẫn phù hợp đối với x1, , xn độc lập cùng phân phối với mật độ g,
ta có
1n
áp dụng để làm giảm phương sai:
1 Phép tính gần đúng đầu tiên được gọi là lấy lại mẫu quan trọng liêntiếp và quá trình này như sau:
(a) Lấy một mẫu quan trọng Y(1), , Y(n)với các trọng số quan trọng
wi = f (Y(i))/g(Y(i)), i = 1, , n
(b) Tạo một mẫu mớiX(1), , X(n)bằng cách lấy mẫu từY(1), , Y(n)
trong đó Yj được lấy mẫu với xác suất wj/Pn
i=1wi
2 Phương pháp lấy mẫu thứ hai được gọi là kiểm soát loại bỏ và xem xétloại bỏ bất kỳ điểm mẫu mà có trọng số quan trọng dưới một ngưỡng
Trang 16c cho trước Loại bỏ những điểm mẫu sẽ đưa ra một độ lệch, nhưngbằng sự thay đổi các trọng số quan trọng thích hợp, độ lệch này cóthể tránh được Cho mẫu quan trọng Y(1), , Y(n) với các trọng sốquan trọng w1, , wn, quá trình kiểm soát loại bỏ như sau:
(a) Với j = 1, , n chấp nhận Y(j) với xác suất pj = min{1, wj/c}.Ngược lại, loại bỏ Y(j)
(b) Nếu Y(j) được chấp nhận tính toán lại thì trọng số quan trọng là
˜
wj = qwj/pj, trong đó q = R min{1, w(x)/c}g(x)dx
Chú ý vì q như nhau đối với tất cả các điểm mẫu nên ta không cầntính nó rõ ràng nếu ta sử dụng ước lượng tỷ lệ Hơn nữa, kiểm soátloại bỏ tạo ra một mẫu quan trọng theo mật độ đề xuất
Trang 17Ví dụ 1.6 Giả sử Xn là thời tiết ngày thứ n Ta đặt:
0 nếu trời nắng vào ngày thứ n
1 nếu trời có mây vào ngày thứ n
2 nếu trời mưa vào ngày thứ n
Hình sau chỉ ra các xác suất chuyển cho sự thay đổi thời tiết
Bằng việc lấy mô hình thời tiết như xích Markov, chúng ta giả sử rằng
Hình 1.1: Xác suất chuyển của xích thời tiếtthời tiết ngày mai được tính theo thời tiết hôm nay, không phụ thuộc vàongày hôm qua hay bất kỳ ngày trước nào
Định nghĩa 1.12 Xác suất chuyển, Xích thời gian thuần nhất.Một xích Markov X được gọi là xích thuần nhất nếu xác suất chuyển củanó:
x ∈ S, hàm p(x, y) là một mật độ hoặc hàm khối xác suất (pmf)
Xác suất chuyển sau n bước của X được định nghĩa bởi
P(Xn ∈ A|X0 = x) = P(n)(x, A) =
Z
A
p(n)(x, y)dy
Trang 18Nếu không gian trạng thái S của X là hữu hạn thì ta có thể gom cácxác suất chuyển thành một ma trận xác suất chuyển như sau.
Định nghĩa 1.13 Ma trận chuyển Đặt P(Xn+1 = j|Xn = i) = pij
(i, j ∈ S) Ma trận xác suất chuyển của X là
P = (pij)i,j∈S
Khi đó xác suất chuyển sau n bước là p(n)ij = Pn(i, j)
Ví dụ 1.7 Ma trận xác suất chuyển của xích Markov thời tiết và Ma trậnxác suất chuyển sau 2 - lần của xích Markov thời tiết là
q(0)(y)p(n)(y, x)dy
Nếu q(n) là véctơ của phân phối tại thời điểm n và Pn là ma trận xác suấtchuyển sau n bước thì ta có:
Trang 19Nếu một xích Markov thỏa mãn điều kiện hợp lý nhất định thì phânphối của xích hội tụ đến một phân phối giới hạn mà cũng được gọi là phânphối cân bằng hoặc cân bằng hoặc bất biến Xích như thế được gọi là mộtxích Markov ergodic.
Một xích Markov thời gian rời rạc trên một không gian trạng thái rờirạc là ergodic nếu nó là tối giản, không chu kỳ và hồi quy dương Đầu tiên,
ta đưa ra các khái niệm cho không gian trạng thái (rời rạc) đếm được vàđịnh nghĩa tương tự cho không gian trạng thái tổng quát
Định nghĩa 1.15 Tối giản: Xích Markov X được gọi là tối giản nếu tất
cả các trạng thái đều liên lạc được, tức là với mọi i, j ∈ S, có một số n ≥ 0
sao cho:
P(Xn = i|X0 = j) > 0
Định nghĩa 1.16 Hồi quy Một xích Markov X được gọi là hồi quy nếuxác suất để xích xuất phát từ trạng thái i quay trở lại i sau hữu hạn bướcbằng 1, tức là:
P(Xtrở lại trạng thái i sau hữu hạn bước |X0 = i) = 1 ∀i ∈ S
Định nghĩa 1.17 Hồi quy dương : Một xích hồi quy được gọi là hồiquy dương nếu E(Tii) < ∞ với mọi i ∈ S, trong đó Tii là khoảng thời gianlần đầu tiên trở về trạng thái i Nếu xích Markov là ergodic với phân phốidừng π thì
π(i) = 1/E(Tii)
Ở đây, phân phối dừng π = (π(1), π(2), ) còn được gọi là phân phối giớihạn
Định lí 1.18 Trạng thái i là hồi quy khi và chỉ khi P∞n=1p(n)ii = ∞
Định nghĩa 1.19 Tính không chu kỳ:
Một xích Markov được gọi là không có chu kỳ nếu không tồn tại d > 2 vàcác tập con rời nhau S1, S2, , Sd ⊂ S sao cho:
P (x, Si+1) =P(Xn+1 ∈ Si+1|Xn = x) = 1 ∀x ∈ Si, i ∈ {1, 2, 3, , d−1}
P (x, S1) = 1 ∀x ∈ Sd
Trang 20Ví dụ 1.9.
Hình 1.2: Xác suất chuyển của xích thời tiếtBây giờ ta xét một không gian trạng thái liên tục X Bởi vì xác suấtcủa một biến ngẫu nhiên liên tục nhận giá trị tại một điểm bằng 0 nên tacần xem lại định nghĩa về tính tối giản
Định nghĩa 1.20 φ - tối giản Một xích Markov được gọi là φ - tối giảnnếu tồn tại một độ đo không tầm thường φ trong X sao cho ∀A ⊆ X với
φ(A) > 0 và ∀x ∈ X, tồn tại số nguyên dương n = n(x) sao cho:
P(n)(x, A)(= P(Xn ∈ A|X0 = x)) > 0
Ví dụ như φ(A) = δx0 thì điều này đòi hỏi trạng thái x0 có thể đạtđược (liên lạc) từ bất kỳ trạng thái khác với xác suất dương Vì vậy, tínhtối giản là điều kiện chặt hơn so với φ - tối giản Với không gian trạng tháiliên tục, φ(·) có thể là độ đo Lebesgue
Khái niệm về tính không chu kỳ như định nghĩa trước đó cũng được ápdụng cho xích Markov liên tục
Một xích Markov là φ - tối gian và không có chu kỳ thì có phân phốigiới hạn Để đo khoảng cách giữa hai độ đo xác suất ta sử dụng khoảngcách biến thiên hoàn toàn
Định nghĩa 1.21 Khoảng cách biến phân giữa hai độ đo xác suất P1 và
P2 được định nghĩa bởi:
kP1(·) − P2(·)k = sup
A
|P1(A) − P2(A)|
Trang 21Định lí 1.22 Phân phối trạng thái cân bằng Phân phối của xíchMarkov không có chu kỳ, φ - tối giản hội tụ đến một phân phối giới hạn
Bổ đề 1 Trạng thái cân bằng chi tiết Giả sử π là phân phối trên
S thỏa mãn: π(x)p(x, y) = π(y)p(y, x) với mọi x, y ∈ S, trong đó p(x, y)
là mật độ chuyển hoặc hàm khối xác suất của một xích Markov X có tínhergodic Khi đó π là một phân phối dừng của X
Trang 22Thật vậy, phân phối π thỏa mãn phương trình trạng thái cân bằng tổngquát vì:
p(y, x)dy = π(y)
Sự hữu ích của MCMC là dựa trên định lý quan trọng đối với xích Markov
có tính ergodic sau
Định lí 1.25 Định lý ergodic: Cho h là một hàm thực nào đó và X làmột xích Markov có tính ergodic với phân phối dừng π Xét ergodic trungbình:
Định lí 1.26 Định lý giới hạn trung tâm Nếu X là ergodic hình học([3])và Eπ(h(Y )2+ε) < ∞ với ε > 0 thì
Trang 23ta không thể tính E(h(Y )) = R h(y)π(y)dy và các phương pháp mô phỏng
cơ bản cũng không thực hiện được Đề giải quyết vấn đề này, chúng ta đưa
ra một phương pháp gọi là phương pháp MCMC
Chúng ta biết rằng một xích Markov X có tính ergodic thì phân phốicủa xích hội tụ đến phân phối dừng Vì vậy, ý tưởng chính của phươngpháp MCMC là đi xây dựng một xích Markov có tính ergodic mà phânphối dừng là π Khi đó, chúng ta chạy X lên đến thời gian dài N và ướclượng E(h(Y )) bởi N1 PN
n=1h(Xn) Định lý ergodic cho ta biết với N đủlớn, ước lượng trên sẽ gần đến E(h(Y ))
Xích Markov quan tâm thường bắt đầu tại một trạng thái mà không cóphân phối dừng (ngược lại chúng ta không làm việc với MCMC) Ta có thểkhám phá hiệu quả trạng thái ban đầu có thể có trên các trạng thái đượctruy cập bởi xích Markov Để giảm khả năng của độ chệch, cái được gọi
Trang 24là độ chệch khởi đầu do ảnh hưởng của kết quả của giá trị khởi động, một
M bước ban đầu của xích bị loại bỏ và ước lượng dựa trên trạng thái đượctruy cập sau thời gian M, tức là chúng ta sử dụng ergodic trung bình:
Như vậy, chúng ta bắt đầu với phân phối π và cố gắng tìm xích Markov
có tính ergodic mà phân phối dừng là π Với bất kỳ cách cho phân phối,thường là có nhiều xích Markov phù hợp Vì vậy, có nhiều cách khác nhautrong việc xây dựng một xích Markov mà phân phối hội tụ đến phân phốimục tiêu
Thực sự không phải quá khó để tìm một xích Markov có phân phốidừng là phân phối mong muốn Có một số các phương pháp, được gọi là
"lấy mẫu", mà chúng ta có thể sử dụng để tìm một xích Markov như vậy.Nếu xích được xây dựng là ergodic thì chúng ta có thể tiến hành bằng cách
mô phỏng xích đó và ước tính số lượng quan tâm
2.2 Mẫu Metropolis - Hastings
Cho S là không gian trạng thái của phân phối mục tiêu Quá trìnhchuyển đổi của một xích Metropolis-Hastings được tạo ra như sau Đầutiên, chúng ta chọn với mỗi x ∈ S một mật độ q(x, ·) trong S (hoặc hàmkhối xác suất nếu S là rời rạc) Vì vậy, q(x, ·), x ∈ S, xác định các xácsuất/mật độ chuyển của một xích Markov trong không gian trạng thái S,cho biết trạng thái hiện tại là x Các xác suất/ mật độ chuyển q(x, ·) nênđược chọn sao cho việc lấy mẫu được dễ dàng
Trang 25Giả sử trạng thái hiện tại của xích Markov là Xn = x Khi đó, chúng
ta lấy mẫu một trạng thái z theo q(x, ·) Chúng ta đề xuất trạng thái znày như là trạng thái mới của xích và chấp nhận nó với xác suất
α(x, z) = min
1, π(z)q(z, x)π(x)q(x, z)
Định nghĩa 2.1 Mẫu Metropolis - Hastings Chọn các xác suất/mật
độ chuyển q(x, y), x, y ∈ S Chúng được gọi là các phân phối đề xuất Bâygiờ, giả sử Xn = x ∈ S
Tiến hành như sau:
1 Lấy mẫu Z= z dựa vào q(x, z), z ∈ S
2 Chấp nhận Z= z với xác suất
α(x, z) = min
1, π(z)q(z, x)π(x)q(x, z)
với 0<p<1, fi là các mật độ Chúng ta có thể lấy mẫu hỗn hợp bởi mẫu x
từ f1(·) với xác suất p và từ f2(·) với xác suất 1-p Ví dụ sau chỉ ra cáchlấy mẫu từ một phân phối hỗn hợp bằng cách sử dụng mẫu Metropolis -Hastings Mật độ trong ví dụ này có thể được lấy mẫu trực tiếp
Ví dụ 2.1 Mô phỏng phân phối hỗn hợp của hai phân phối chuẩn
Trang 26• Mật độ mục tiêu là:
π(x) = p√ 1
2πσ1exp{−
12σ2 1
(x−µ1)2}+(1−p)√ 1
2πσ2exp{−
12σ2 2
• Quá trình mẫu Metropolis - Hastings như sau:
1 Chọn X0 = x0 ∈ R.
2 Giả sửXn = x Lấy mẫuz ∼ N (0, 1) và đặ y = x +z Chấp nhận
y với xác suất min
n
1, π(x)π(y)
o Nếu chấp nhận thì đặt Xn+1 = y,ngược lại thì đặt Xn+1 = x
Ví dụ 2.2 Điểm trên đường tròn đơn vị
Giả sử x = (x(1), , x(m)) là vị trí của m điểm trên đường tròn đơn vị.Đặt π(x(1), , x(m)) là mật độ mà phân phối m điểm độc lập cùng phânphối đều trên đường tròn đơn vị với điều kiện không có điểm nào nằm trongkhoảng cách d của mỗi điểm khác (phân phối kiểu này thường xảy ra trongcác thiết lập hóa học ở đó các điểm là tâm của phần tử dạng hình cầu cóđường kính d) Gọi A là biến cố khoảng cách nhỏ nhất giữa m điểm độc lập
Trang 27cùng phần phối đều trên đường tròn đơn vị lớn hơn d và đặt p =P(A) Gọi
S là trạng thái của bất kỳ hình dạng m điểm trên (0, 2π) sao cho khoảngcách nhỏ nhất giữa các điểm lớn hơn d Khi đó phân phối mục tiêu củachúng ta là:
π(x) = 1
2πp1[x∈S]
Trong một chiều, ta có thể tính được p nhưng trong 2 chiều, điều này làkhông thể Cũng như ví dụ trước ta có một dạng đơn giản cho phân phốimục tiêu
Có cách dễ dàng chuyển từ một x ∈ S đến một trạng thái khác x0 ∈ S.Một cách như thế là chọn x ∈ x ngẫu nhiên và xóa nó đi và lấy một mẫu vịtrí mới z theo phân phối đều trên (0, 2π) Rồi thiết lập x0 = x ∪ {z}\{x}.(Điều này có thể tạo ra hình dạng x0 không nằm trong S nhưng như saunày ta thấy, điều này không thật sự là vấn đề) Phương pháp này được mô
1 Chọn i ∈ {1, 2, , m} ngẫu nhiên và lấy mẫu z từ phân phối chuẩntrên (0, 2π) Đặt z = x ∪ {z}\{x(i)}
Trang 282 Nếu z ∈ S thì chấp nhận z và đặt Xn+1 = z Nếu z /∈ S thì bác bỏ z
và đặt Xn+1 = x
Chúng ta xem xét một vài tính chất lý thuyết của thuật toán Metropolis
- Hastings (MH) Đầu tiên, có nhiều tự do trong việc chọn đề xuất kỹ thuật
q(x, y) Điều kiện cần là giá của mật độ mục tiêu π là tập con của giá củacác mật độ đề xuất thích hợp Chi tiết hơn, chúng ta cần:
S = supp(π) ⊆ [
x∈S
supp(q(x, ·))
Có thể thấy trong các ví dụ trước, xác suất chấp nhận α(x, y) cơ bản tỷ
lệ với π(·), vì vậy, chúng ta không cần biết hằng số tiêu chuẩn của π(·) để
có thể tính xác suất này Cũng có thể thấy rằng xác suất chấp nhận chứadạng giống với dạng trong các phương trình cân bằng chi tiết Điều nàykhông phải là trùng hợp ngẫu nhiên, xác suất chấp nhận được chọn saocho phương trình cân bằng chi tiết thỏa mãn Chúng ta xem xét phươngtrình cân bằng chi tiết của xích MH Đầu tiên, chúng ta cần xác định nhânchuyển của xích MH
Bổ đề 2 Nhân chuyển p(x, y) của mẫu Metropolis - Hastings được chobởi:
S q(x, y)(1 − α(x, y))dy Nếu S liên tục
(Chú ý rằng nhân chuyển không liên tục đối với độ đo Lebesgue.)
Chứng minh Giả sử S là rời rạc (trong trường hợp S liên tục, chứngminh tương tự) Nhắc lại rằng, xích chuyển đến trạng thái mới nếu trạngthái mới này được đề xuất và chấp nhận Điều này xảy ra với xác suất
q(x, y)α(x, y) Đây là xác suất chuyển từ trạng thái x đến y khi y 6= x.Bây giờ, ta xét xác suất chuyển từ x đến x Điều này có thể xảy ra theohai trường hợp Thứ nhất, ta có thể đề xuất x như là một trạng thái mới
Trang 29và chấp nhận nó, với xác suất là q(x, x)α(x, x) Thứ hai, chúng ta đề xuấttrạng thái y nào đó và bác bỏ nó, khi đó xích trở lại trạng thái x Xác suấtxảy ra trường hợp này là:
r(x) = Σy∈Sq(x, y)(1 − α(x, y))
Tóm lại, xác suất chuyển của xích Metropolis - Hastings được cho bởi:
p(x, y) = q(x, y)α(x, y) + 1{x=y}r(x)
Bây giờ, chúng ta kiểm tra phương trình trạng thái cân bằng chi tiết
Bổ đề 3 Xích Metropolis - Hastings thỏa mãn phương trình trạng tháicân bằng đối với π
= π(y)q(y, x)α(y, x) = π(y)p(y, x)
Phương trình trạng thái cân bằng cũng đúng cho trường hợp tầm thường
x = y
Dựa vào cách chọn phân phối đề xuất mà chúng ta có một số phươngpháp MCMC sau
Trang 302.3 Một số thuật toán MCMC
2.3.1 Mẫu Gibbs
Mẫu Gibbs là một dạng lựa chọn phổ biến sử dụng phân phối có điềukiện đầy đủ như là phân phối đề xuất Cho xt = (x(1)t , , x(d)t ) và
x(−i)t = (x1, , x(i−1), x(i+1), , x(d))
Chúng ta chọn một thành phần i ∈ 1, , d và đề xuất như một trạng tháimới
Ví dụ 2.3 Phân phối chuẩn hai chiều Đây là một ví dụ nhỏ mà chúng
ta có thể lấy mẫu phân phối chuẩn hai chiều trực tiếp Nhưng nó minh họarất tốt cách làm việc của mẫu Gibbs Chúng ta muốn mẫu X và Y với mậtđộ:
Mật độ này chỉ ra một phân phối chuẩn hai chiều với kỳ vọng (0, 0)
và ma trận hiệp phương sai: Σ = 1 ρ
ρ 1
! Ta thấy (X|Y = y) có phânphối N (ρy, 1 − ρ2) và (Y |X = x) có phân phối N (ρx, 1 − ρ2) Giả sử
Xn = (xn, yn) thì ta tiến hành như sau Đầu tiên, ta lấy mẫu X = x từphân phối có điều kiện của (X|Y = yn) và tiếp theo lấy mẫu Y = y từphân phối có điều kiện của (Y |X = x) Khi đó ta đặt Xn+1 = (x, y)
Trang 32trong đó X1 và X2 là các mẫu độc lập cùng phân phối π Do đó, trongtrạng thái dừng, xác suất chấp nhận của mẫu độc lập lớn hơn xác suấtchấp nhận của thuật toán lấy mẫu loại bỏ Điều này là dĩ nhiên đi kèmvới chi phí tạo ra một mẫu độc lập với chỉ tiệm cận phân phối chính xác.Tương tự với mẫu loại bỏ tạo cảm giác chọn một mẫu độc lập với phânphối đề xuất f là gần đến mức có thể mục tiêu π (Chú ý nếu f = π thìxích ngay lập tức đạt trạng thái dừng) Trong thực hành, phân phối đềxuất fθ thường xuyên phụ thuộc vào tham số θ nào đó và chúng ta điềuchỉnh tham số theo kinh nghiệm để có được tỷ lệ chấp nhận trung bìnhtốt Ta có thể sử dụng thử nghiệm để ước lượng tỷ lệ chấp nhận dự kiến.Nếu π(x) ≤ M f (x) thì ta thậm chí có thể tính toán tốc độ hội tụ củanhân chuyển đến phân phối dừng như sau Với y 6= x:
p(x, y) = f (y) min
π(y)f (x)π(x)f (y), 1
= min
π(y)f (x)π(y) , f (y)
Trang 33Sử dụng quy nạp, bây giờ, ta có thể chỉ ra:
2.3.3 Mẫu Metropolis - Hastings du động ngẫu nhiên
Ở đây, chúng ta chọn q(x, y) = f (y − x) với hàm khối xác suất hoặcmật độ f nào đó Mẫu Metropolis - Hastings du động ngẫu nhiên có tênnhư vậy từ thực tế rằng sự đề xuất là được tạo ra theo một cách du độngngẫu nhiên, tức là:
Chú ý rằng nếu f là đối xứng qua 0 thì đây là một mẫu Metropolis Ví
dụ cho mẫu Metropolis cũng như mẫu du động ngẫu nhiên MH là phânphối trộn
Lựa chọn chung cho f là mật độ chuẩn đa biến, t- mật độ hoặc mật độđều
Trang 342.3.4 Mẫu Metropolis (thành phần đơn)
Đây là một đề xuất sáng tạo sử dụng hàm khối xác suất hoặc mật độ đềxuất đối xứng, tức là q(x, y) = q(y, x) Khi đó, xác suất chấp nhận đượcđơn giản hóa:
α(x, y) = min
1,π(x)π(y)
Để cung cấp một mô tả chính xác hơn, chúng ta giả sử chia khônggian tham số thành hai thành phần và trạng thái hiện tại Xt = (X1t, X2t).Thành phần thứ nhất Y1 bây giờ được lấy mẫu từ phân phối đề xuất đốixứng có điều kiện q1(·|(X1t, X2t)), và được chấp nhận là thành phần mới
1|Xt
2)
Ngược lại,X1t+1 = X1t Chú ý rằng, ở đây π(·|·)dùng để chỉ mật độ xác suất
có điều điện đầy đủ (tiến đến một hằng số tiêu chuẩn) và q1(Y1|(Xt
1, X2t))
là xác suất chuyển từ điểm X1t đến Y1 với điều kiện thành phần thứ hai là
X2t
Thành phần thứ hai được lấy mẫu từ phân phối đề xuất q2(·|(X1t, X2t))
và tương tự được chấp nhận với xác suất:
α = min
1, π(Y2|X1t+1)pi(X2t|Xt+1
Trang 35Chương 3
MCMC thích nghi
Trong chương trước, chúng ta thấy rằng việc chọn lựa phân phối đềxuất là quan trọng cho sự hội tụ của thuật toán MCMC Tuy nhiên, việcchọn lựa được phân phối đề xuất tốt thường khó thực hiện vì thông tin
về mật độ mục tiêu là không có hoặc rất ít Hơn nữa, trong thuật toánMCMC, phân phối đề xuất được chọn cho mọi bước mô phỏng Để sử dụngcác thông tin đã thu được trong các bước mô phỏng trước để mô phỏngcho bước tiếp theo, chúng ta đưa ra thuật toán MCMC thích nghi Ở đó,phân phối đề xuất được cập nhật cùng quá trình sử dụng thông tin đầy
đủ tích lũy cho đến thời điểm hiện tại
Mỗi lựa chọn phân phối đề xuất thích nghi sẽ cho chúng ta một dạngMCMC thích nghi Trong chương này, chúng ta giới thiệu hai thuật toánMCMC thích nghi mà phân phối đề xuất thích nghi là phân phối chuẩntrên trạng thái hiện tại Đó là "Thuật toán Metropolis du động ngẫu nhiênthích nghi (Adaptive proposal distribution for random walk Metropolisalgorithm (AP))" và "Thuật toán Metropolis thích nghi (An adaptiveMetropolis algorithm (AM))" Đối với thuật toán AP, hiệp phương saicủa phân phối đề xuất Gauss được tính toán từ một số hữu hạn cố địnhcủa các trạng thái trước đó Đối với thuật toán AM, hiệp phương sai củaphân phối đề xuất được tính toán sử dụng tất cả các trạng thái trước.Chương này bao gồm hai phần chính Phần thứ nhất trình bày "Thuậttoán Metropolis du động ngẫu nhiên thích nghi", được trích dẫn chủ yếu
từ bài báo [6] Trong đó cũng đưa ra sự so sánh thuật toán này với một số