THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG

Phân phối của biến ngẫu nhiên X được lấy mẫu trongphương pháp loại bỏ như trên có mật độ f x... Nếu giá của f không bị chặn thì để có thể tìm thấy cận M, mật độ Ta đã biết cách lấy mẫu m

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

-

NGUYỄN VĂN TÂN

THUẬT TOÁN MÔ PHỎNG MCMC THÍCH

NGHI VÀ ỨNG DỤNG

Chuyên ngành: Lý thuyết xác suất và thống kê toán học

Mã số: 60460106

LUẬN VĂN THẠC SĨ KHOA HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC:

TS TRẦN MẠNH CƯỜNG

Trang 2

Mục lục

1.1 Sự hội tụ của dãy đại lượng ngẫu nhiên 5

1.2 Dãy mixingale 6

1.3 Các thuật toán mô phỏng cơ bản 7

1.3.1 Phương pháp biến đổi nghịch đảo 8

1.3.2 Phương pháp loại bỏ 9

1.3.3 Phương pháp lấy mẫu quan trọng 13

1.4 Xích Markov 15

2 Phương pháp MCMC 22 2.1 Giới thiệu 22

2.2 Mẫu Metropolis - Hastings 23

2.3 Một số thuật toán MCMC 29

2.3.1 Mẫu Gibbs 29

2.3.2 Mẫu độc lập 30

2.3.3 Mẫu Metropolis - Hastings du động ngẫu nhiên 32

2.3.4 Mẫu Metropolis (thành phần đơn) 33

3 MCMC thích nghi 34 3.1 Thuật toán Metropolis du động ngẫu nhiên thích nghi 35

3.1.1 Mô tả thuật toán 35

3.1.2 Tính chất ergodic 37 3.1.3 So sánh các thuật toán Metropolis với thuật toán AP 38

Trang 3

3.2 Thuật toán Metropolis thích nghi 423.2.1 Mô tả thuật toán 453.2.2 Tính Ergodic 473.2.3 So sánh các thuật toán Metropolis với thuật toán AM 593.3 Một số ứng dụng của MCMC thích nghi 593.3.1 Mô hình mô phỏng GOMOS 603.3.2 Mô hình suy giảm oxy 65

Trang 4

Lời nói đầu

Để tìm hiểu về MC, ta xét bài toán sau: Giả sử ta cần tính tích phân

1

0 = F (1) − F (0)

Tuy nhiên, trong nhiều trường hợp, ta không thể tìm được F(x) Giả sử

f (x) là hàm mật độ trên [0, 1] sao cho nếu h(x) 6= 0 thì f (x) > 0 Ta viếtlại I = R01 h(x)f (x)f (x)dx Khi đó, chúng ta lấy mẫu độc lập cùng phân phối

(x(1), , x(n)) từ phân phối xác định bởi mật độ f và xét:

ˆ

In = 1n

n

X

i=1

h(x(i))/f (x(i))

Luật số lớn cho ta thấy rằng Iˆn hội tụ với xác suất 1 tới tích phân I khi n

tiến tới ∞ nghĩa là Iˆ

n → I(h.c.c) Như vậy để tính xấp xỉ I, ta phải thựchiện n mô phỏng cho biến ngẫu nhiên X

Các mô phỏng MC cơ bản này có ưu điểm là dễ thực hiện Tuy nhiên,

nó chỉ mô phỏng được đối với các trường hợp đơn giản

Trong nhiều trường hợp phức tạp như số chiều tăng lên (phân phốinhiều chiều) thì các MC cơ bản không thể thực hiện được Đề giải quyếtvấn đề này, chúng ta đưa ra một phương pháp gọi là phương pháp MCMC

Ý tưởng chính của phương pháp MCMC là đi xây dựng một xích Markov

có tính ergodic mà phân phối dừng là π Khi đó, chúng ta chạy X lên đếnthời gian dài N và ước lượng E(h(Y )) bởi N1 PN

n=1h(Xn) Định lý ergodiccho ta biết với N đủ lớn, ước lượng trên sẽ gần đến E(h(Y ))

Chúng ta thấy rằng việc chọn lựa phân phối đề xuất là quan trọng cho

Trang 5

sự hội tụ của thuật toán MCMC Việc chọn lựa được phân phối đề xuấttốt thường khó thực hiện vì thông tin về mật độ mục tiêu là không cóhoặc rất ít Hơn nữa, trong thuật toán MCMC, phân phối đề xuất đượcchọn cho mọi bước mô phỏng Để sử dụng các thông tin đã thu được trongcác bước mô phỏng trước để mô phỏng cho bước tiếp theo, chúng ta đưa

ra thuật toán MCMC thích nghi Ở đó, phân phối đề xuất được cập nhậtcùng quá trình sử dụng thông tin đầy đủ tích lũy cho đến thời điểm hiệntại Mỗi lựa chọn phân phối đề xuất thích nghi sẽ cho chúng ta một dạngMCMC thích nghi

Mục đích chính của luận văn này là trình bày các phương pháp MCMC

cơ bản và hai thuật toán MCMC thích nghi từ bài báo [6], [7] Đồng thờiđưa ra các so sánh giữa các thuật toán MCMC và chứng minh chi tiết cácđịnh lý trong bài báo cũng như đưa ra một số ứng dụng của thuật toán.Luận văn gồm 3 chương

• Chương 1 nhắc lại một số kiến thức bổ trợ về sự hội tụ của dãy đạilượng ngẫu nhiên, dãy mixingale, các thuật toán mô phỏng MC cơbản và xích Markov

• Chương 2 trình bày về các phương pháp MCMC cơ bản

• Chương 3 trình bày chi tiết về hai phương pháp MCMC thích nghi từhai bài báo [6] và [7] Đó là thuật toán Metropolis du động ngẫu nhiênthích nghi ([6]) và thuật toán Metropolis thích nghi ([7]) Chỉ ra tínhhội tụ của hai thuật toán và chứng minh tính ergodic của thuật toánMetropolis thích nghi Sau mỗi thuật toán đều đưa ra sự so sánh giữacác thuật toán MCMC Đồng thời đưa ra một số ứng dụng thực tếcủa mô hình MCMC thích nghi

Lời đầu tiên, xin chân thành cảm ơn thầy TS Trần Mạnh Cường đãnhận hướng dẫn và tận tình giúp đỡ tôi hoàn thành luận văn này Lòng biết

ơn sâu sắc tôi cũng xin được gửi đến các thầy cô trong Trường ĐHKHTN

- ĐHQGHN, Khoa Toán - Cơ - Tin đã giúp đỡ tôi hoàn thành khóa học

Hà Nội tháng 12 năm 2015

Trang 6

Chương 1

Kiến thức chuẩn bị

1.1 Sự hội tụ của dãy đại lượng ngẫu nhiên

Giả sử (Ω, F , P ) là không gian xác suất

Định nghĩa 1.1 Một dãy các đại lượng ngẫu nhiên hay biến ngẫu nhiên

(Xn) được gọi là hội tụ hầu chắc chắn đến biến ngẫu nhiên X nếu:

Trang 7

Định nghĩa 1.4 Một dãy các biến ngẫu nhiên (Xn) được gọi là hội tụ theotrung bình bậc r đến biến ngẫu nhiên X nếu r ≥ 1, E|Xn|r < ∞ ∀n,

Trang 8

1.3 Các thuật toán mô phỏng cơ bản

Các kết quả thống kê thường liên quan đến tích phân Nhắc lại rằng cả

kỳ vọng và xác suất đều nhận được từ tích phân (hoặc tổng) Vì vậy, xéttích phân sau:

I =

Z 1 0

h(x)dx

Thông thường, người ta tiếp cận dạng tổng Riemann Chúng ta đánhgiá hàm h(x) tại n điểm (x(1), , x(n)) trong một lưới chính quy và sau đótính:

I ≈ 1n

n

X

i=1

h(x(i))

Tuy nhiên, trong nhiều trường hợp, việc xác định lấy các điểm(x(1), , x(n))

là không thể hoặc chi phí quá tốn kém, người ta đã đưa ra một cách tiếpcận khác Đó là quá trình Monte Carlo Chúng ta bắt đầu bằng việc viếtlại tích phân như sau:

I =

Z 1 0

ˆ

In = 1n

n

X

i=1

h(x(i))/f (x(i))

Luật số lớn cho ta thấy rằng Iˆn hội tụ với xác suất 1 tới tích phân I khi

n tiến tới ∞ nghĩa là Iˆn → I(h.c.c) Hơn nữa, định lý giới hạn trung tâmchỉ ra rằng

( ˆIn − I)/

q

V ar( ˆIn)

Trang 9

xấp xỉ phân phối chuẩn Vì vậy phương sai V ar( ˆIn) cho ta biết về độ chínhxác ước lượng của chúng ta và nó có thể được ước lượng như sau:

vn = 1n(n − 1)

n

X

j=1

(h(xj)/f (xj) − ˆIn)2

1.3.1 Phương pháp biến đổi nghịch đảo

Định lí 1.9 Xét hàm phân phối lũy tích (cdf) F (x) Gọi F−1 là nghịchđảo mở rộng của F, tức là:

F−1(u) = min{x ∈ S : F (x) ≥ u} u ∈ (0, 1]

Gọi U là một biến ngẫu nhiên phân phối đều (0, 1) và đặt X = F−1(U ),khi đó phân phối của X có cdf F (x) (Chú ý rằng đối với hàm phân phốiliên tục thì nghịch đảo mở rộng là nghịch đảo thông thường)

Bằng định nghĩa của nghịch đảo mở rộng và tính đơn điệu của F, tacó:

Trang 10

Ví dụ 1.2 Mô phỏng biến ngẫu nhiên có phân phối Bernoulli (p)

và biến ngẫu nhiên có phân phối nhị thức B(n, p)

Cho U là một biến ngẫu nhiên phân phối đều (0, 1) Nếu ta xét

p

Cho X1, , Xn là một mẫu độc lập cùng phân phối Bernoulli(p) Khi

đó Y = Pn

i=1Xi có phân phối nhị thức B(n, p)

Ví dụ 1.3 Mô phỏng biến ngẫu nhiên tuân theo phân phối hìnhhọc (p)

Giả sử X nhận giá trị trong N và P(X = j) = pj Khi đó:

Ký hiệu [a] là phần nguyên của a thì X =

h

log(U ) log(1−p)

ituân theo phân phốihình học G(p)

1.3.2 Phương pháp loại bỏ

Giả sử chúng ta muốn lấy mẫu X là một biến ngẫu nhiên liên tục vớihàm mật độf (x) Chúng ta không biết cách lấy mẫu từ X nhưng chúng tabiết cách lấy mẫu từ một biến ngẫu nhiênY tương tự với hàm mật độ g(y).Gọi giá của f là supp(f ) = {x : f (x) > 0} Nếu ta có supp(f ) ⊆ supp(g)

Trang 11

và f (x)/g(x) ≤ M ∀x thì ta có thể lấy mẫu từ Y để tạo ra mẫu cho X.Chúng ta lặp lại các bước sau cho đến khi một mẫu được trả về.

• Bước 1: Lấy mẫu Y = y từ g(y) và U = u từ phân phối đều U(0, 1).Sang bước 2

• Bước 2: Nếu u ≤ M g(y)f (y) thì đặt X = y Ngược lại, quay lại bước 1.Mệnh đề 1.10 Phân phối của biến ngẫu nhiên X được lấy mẫu trongphương pháp loại bỏ như trên có mật độ f (x)

Trang 12

lặp, chúng ta tạo ra một mẫu với xác suất P(U ≤ M g(Y )f (Y ) ) = M1 nên tổng

số lần lặp tuân theo phân phối hình học với tham số 1/M Do vậy trungbình cần số lần lặp là M Chú ý sau đây:

1 Cận M nhỏ hơn thì thuật toán hiệu quả hơn trong tổng số lần lặp

Vì vậy chúng ta nên tìm kiếm một mật độ g gần f

2 Nếu giá của f không bị chặn thì để có thể tìm thấy cận M, mật độ

Ta đã biết cách lấy mẫu một biến ngẫu nhiên phân phối mũ vì thế chúng

ta chọn mật độ g là mật độ của một phân phối mũ với tham số 1 Khi đó:

Thuật toán lấy mẫu loại bỏ tiến hành như sau:

• Bước 1: Lấy mẫu Y = y từ phân phối mũ E(1) và U = u từ phânphối đều U (0, 1) Đến bước 2

• Bước 2: Nếu u ≤ exp−(y−1)2 2 thì đặt X = y Ngược lại, trở lạibước 1

Ví dụ 1.5 Xét một biến ngẫu nhiên Y với mật độ g(x) được xác địnhtrên không gian trạng thái S Bây giờ, giả sử A ⊂ S và chúng ta muốn lấy

Trang 13

mẫu biến ngẫu nhiên có điều kiện X = (Y |Y ∈ A) với không gian trạngthái A Trong trường hợp này mẫu loại bỏ có thể hoàn thành bởi lấy mẫulặp đi lặp lại X cho đến khi mẫu của chúng ta nằm trong A Cụ thể hơn,

để đưa ra quyết định này

Nếu đánh giá mật độ mục tiêu f là tốn kém thì phương pháp loại bỏ cóthể dùng máy điện toán ít tốn kém hơn Nếu thêm cận trên M g(x) trênmật độ mục tiêu f (x)thì chúng ta cũng có thể dễ dàng ước lượng cận dưới

h(x) Vì thế gọi là thuật toán lấy mẫu loại bỏ hình bao, tiến hành nhưsau:

1 Giả sử Y = y từ g(y) và U = u từ phần phối đều U (0, 1)

2 Chấp nhận nếu u ≤ h(y)/M g(y) và đặt X = y là một mẫu Ngượclại, đi đến bước 3

3 Chấp nhận nếuu ≤ f (y)/M g(y) và trả lại X = y là một mẫu Ngượclại đi đến bước 1

Điều này hiệu quả hơn vì trung bình ta cần 1/M R h(x)dx lần lặp đánhgiá của f được thay thế bởi đánh giá của h Hàm h có thể được tìm thấytrong ví dụ bởi khai triển Taylor

Trang 14

1.3.3 Phương pháp lấy mẫu quan trọng

Trong đoạn trước ta đã đưa ra lấy mẫu loại bỏ, sử dụng mật độ đề xuất

để tạo ra mẫu từ mật độ mục tiêu Trong đoạn này, chúng ta vấn tiếp tụclấy mẫu của mật độ mục tiêu nhưng thay đổi cách đánh giá tạo ra ướclượng không chệch của các đặc tính của mật độ mục tiêu

Nhắc lại cái mà ta đang quan tâm khi thảo luận về phương pháp MonteCarlo là tích phân

trong đó, g là một mật độ sao cho g(x) > 0 với f (x)h(x) 6= 0 Bây giờ,chúng ta tạo ra một mẫu độc lập cùng phân phối (x1, , xn) từ g và ướclượng I bởi:

ˆ

I = 1n

n

X

i=1

f (xi)g(xi)h(xi) =

1n

Có hai lý do tại sao chúng ta quan tâm đến biểu diễn mẫu quan trọng:

1 Lấy mẫu từ f (x) là không thể hoặc quá đắt đỏ

2 h(x), trong đó X ∼ f, có phương sai lớn, vì thế ước lượng khôngchệch theo quy ước có sai số Monte Carlo (MC) lớn

Phương sai của một ước lượng quan trọng sẽ chỉ hữu hạn nếu ước lượng

Trang 15

Do đó, phương sai sẽ thường vô hạn nếu tỷ số f (x)/g(x)không bị chặn.Dẫn đến, nếu có thể, chúng ta nên chọn mật độ đề xuất g có đuôi dày hơn

f Tóm lại, nếu f (x)/g(x) không bị chặn thì thậm chí nếu phương sai củaước lượng thống kê là hữu hạn, thủ tục lấy mẫu là không hiệu quả cũngnhư phương sai của trọng số quan trọng là lớn

Thay vì ước lượng quan trọng I =ˆ 1

n

Pn i=1w(xi)h(xi), ước lượng tỷ lệsau đây thường được sử dụng

˜

I =

Pn j=1h(xj)w(xj)

Pn j=1w(xj) .

Ước lượng này có hai lợi thế:

1 Nó là ước lượng không chệch, thường có phương sai nhỏ hơn ước lượngquan trọng, đưa vào dễ dàng hơn Nhưng chú ý rằng ước lượng nàyvẫn phù hợp đối với x1, , xn độc lập cùng phân phối với mật độ g,

ta có

1n

áp dụng để làm giảm phương sai:

1 Phép tính gần đúng đầu tiên được gọi là lấy lại mẫu quan trọng liêntiếp và quá trình này như sau:

(a) Lấy một mẫu quan trọng Y(1), , Y(n)với các trọng số quan trọng

wi = f (Y(i))/g(Y(i)), i = 1, , n

(b) Tạo một mẫu mớiX(1), , X(n)bằng cách lấy mẫu từY(1), , Y(n)

trong đó Yj được lấy mẫu với xác suất wj/Pn

i=1wi

2 Phương pháp lấy mẫu thứ hai được gọi là kiểm soát loại bỏ và xem xétloại bỏ bất kỳ điểm mẫu mà có trọng số quan trọng dưới một ngưỡng

Trang 16

c cho trước Loại bỏ những điểm mẫu sẽ đưa ra một độ lệch, nhưngbằng sự thay đổi các trọng số quan trọng thích hợp, độ lệch này cóthể tránh được Cho mẫu quan trọng Y(1), , Y(n) với các trọng sốquan trọng w1, , wn, quá trình kiểm soát loại bỏ như sau:

(a) Với j = 1, , n chấp nhận Y(j) với xác suất pj = min{1, wj/c}.Ngược lại, loại bỏ Y(j)

(b) Nếu Y(j) được chấp nhận tính toán lại thì trọng số quan trọng là

˜

wj = qwj/pj, trong đó q = R min{1, w(x)/c}g(x)dx

Chú ý vì q như nhau đối với tất cả các điểm mẫu nên ta không cầntính nó rõ ràng nếu ta sử dụng ước lượng tỷ lệ Hơn nữa, kiểm soátloại bỏ tạo ra một mẫu quan trọng theo mật độ đề xuất

Trang 17

Ví dụ 1.6 Giả sử Xn là thời tiết ngày thứ n Ta đặt:

0 nếu trời nắng vào ngày thứ n

1 nếu trời có mây vào ngày thứ n

2 nếu trời mưa vào ngày thứ n

Hình sau chỉ ra các xác suất chuyển cho sự thay đổi thời tiết

Bằng việc lấy mô hình thời tiết như xích Markov, chúng ta giả sử rằng

Hình 1.1: Xác suất chuyển của xích thời tiếtthời tiết ngày mai được tính theo thời tiết hôm nay, không phụ thuộc vàongày hôm qua hay bất kỳ ngày trước nào

Định nghĩa 1.12 Xác suất chuyển, Xích thời gian thuần nhất.Một xích Markov X được gọi là xích thuần nhất nếu xác suất chuyển củanó:

x ∈ S, hàm p(x, y) là một mật độ hoặc hàm khối xác suất (pmf)

Xác suất chuyển sau n bước của X được định nghĩa bởi

P(Xn ∈ A|X0 = x) = P(n)(x, A) =

Z

A

p(n)(x, y)dy

Trang 18

Nếu không gian trạng thái S của X là hữu hạn thì ta có thể gom cácxác suất chuyển thành một ma trận xác suất chuyển như sau.

Định nghĩa 1.13 Ma trận chuyển Đặt P(Xn+1 = j|Xn = i) = pij

(i, j ∈ S) Ma trận xác suất chuyển của X là

P = (pij)i,j∈S

Khi đó xác suất chuyển sau n bước là p(n)ij = Pn(i, j)

Ví dụ 1.7 Ma trận xác suất chuyển của xích Markov thời tiết và Ma trậnxác suất chuyển sau 2 - lần của xích Markov thời tiết là

q(0)(y)p(n)(y, x)dy

Nếu q(n) là véctơ của phân phối tại thời điểm n và Pn là ma trận xác suấtchuyển sau n bước thì ta có:

Trang 19

Nếu một xích Markov thỏa mãn điều kiện hợp lý nhất định thì phânphối của xích hội tụ đến một phân phối giới hạn mà cũng được gọi là phânphối cân bằng hoặc cân bằng hoặc bất biến Xích như thế được gọi là mộtxích Markov ergodic.

Một xích Markov thời gian rời rạc trên một không gian trạng thái rờirạc là ergodic nếu nó là tối giản, không chu kỳ và hồi quy dương Đầu tiên,

ta đưa ra các khái niệm cho không gian trạng thái (rời rạc) đếm được vàđịnh nghĩa tương tự cho không gian trạng thái tổng quát

Định nghĩa 1.15 Tối giản: Xích Markov X được gọi là tối giản nếu tất

cả các trạng thái đều liên lạc được, tức là với mọi i, j ∈ S, có một số n ≥ 0

sao cho:

P(Xn = i|X0 = j) > 0

Định nghĩa 1.16 Hồi quy Một xích Markov X được gọi là hồi quy nếuxác suất để xích xuất phát từ trạng thái i quay trở lại i sau hữu hạn bướcbằng 1, tức là:

P(Xtrở lại trạng thái i sau hữu hạn bước |X0 = i) = 1 ∀i ∈ S

Định nghĩa 1.17 Hồi quy dương : Một xích hồi quy được gọi là hồiquy dương nếu E(Tii) < ∞ với mọi i ∈ S, trong đó Tii là khoảng thời gianlần đầu tiên trở về trạng thái i Nếu xích Markov là ergodic với phân phốidừng π thì

π(i) = 1/E(Tii)

Ở đây, phân phối dừng π = (π(1), π(2), ) còn được gọi là phân phối giớihạn

Định lí 1.18 Trạng thái i là hồi quy khi và chỉ khi P∞n=1p(n)ii = ∞

Định nghĩa 1.19 Tính không chu kỳ:

Một xích Markov được gọi là không có chu kỳ nếu không tồn tại d > 2 vàcác tập con rời nhau S1, S2, , Sd ⊂ S sao cho:

P (x, Si+1) =P(Xn+1 ∈ Si+1|Xn = x) = 1 ∀x ∈ Si, i ∈ {1, 2, 3, , d−1}

P (x, S1) = 1 ∀x ∈ Sd

Trang 20

Ví dụ 1.9.

Hình 1.2: Xác suất chuyển của xích thời tiếtBây giờ ta xét một không gian trạng thái liên tục X Bởi vì xác suấtcủa một biến ngẫu nhiên liên tục nhận giá trị tại một điểm bằng 0 nên tacần xem lại định nghĩa về tính tối giản

Định nghĩa 1.20 φ - tối giản Một xích Markov được gọi là φ - tối giảnnếu tồn tại một độ đo không tầm thường φ trong X sao cho ∀A ⊆ X với

φ(A) > 0 và ∀x ∈ X, tồn tại số nguyên dương n = n(x) sao cho:

P(n)(x, A)(= P(Xn ∈ A|X0 = x)) > 0

Ví dụ như φ(A) = δx0 thì điều này đòi hỏi trạng thái x0 có thể đạtđược (liên lạc) từ bất kỳ trạng thái khác với xác suất dương Vì vậy, tínhtối giản là điều kiện chặt hơn so với φ - tối giản Với không gian trạng tháiliên tục, φ(·) có thể là độ đo Lebesgue

Khái niệm về tính không chu kỳ như định nghĩa trước đó cũng được ápdụng cho xích Markov liên tục

Một xích Markov là φ - tối gian và không có chu kỳ thì có phân phốigiới hạn Để đo khoảng cách giữa hai độ đo xác suất ta sử dụng khoảngcách biến thiên hoàn toàn

Định nghĩa 1.21 Khoảng cách biến phân giữa hai độ đo xác suất P1 và

P2 được định nghĩa bởi:

kP1(·) − P2(·)k = sup

A

|P1(A) − P2(A)|

Trang 21

Định lí 1.22 Phân phối trạng thái cân bằng Phân phối của xíchMarkov không có chu kỳ, φ - tối giản hội tụ đến một phân phối giới hạn

Bổ đề 1 Trạng thái cân bằng chi tiết Giả sử π là phân phối trên

S thỏa mãn: π(x)p(x, y) = π(y)p(y, x) với mọi x, y ∈ S, trong đó p(x, y)

là mật độ chuyển hoặc hàm khối xác suất của một xích Markov X có tínhergodic Khi đó π là một phân phối dừng của X

Trang 22

Thật vậy, phân phối π thỏa mãn phương trình trạng thái cân bằng tổngquát vì:

p(y, x)dy = π(y)

Sự hữu ích của MCMC là dựa trên định lý quan trọng đối với xích Markov

có tính ergodic sau

Định lí 1.25 Định lý ergodic: Cho h là một hàm thực nào đó và X làmột xích Markov có tính ergodic với phân phối dừng π Xét ergodic trungbình:

Định lí 1.26 Định lý giới hạn trung tâm Nếu X là ergodic hình học([3])và Eπ(h(Y )2+ε) < ∞ với ε > 0 thì

Trang 23

ta không thể tính E(h(Y )) = R h(y)π(y)dy và các phương pháp mô phỏng

cơ bản cũng không thực hiện được Đề giải quyết vấn đề này, chúng ta đưa

ra một phương pháp gọi là phương pháp MCMC

Chúng ta biết rằng một xích Markov X có tính ergodic thì phân phốicủa xích hội tụ đến phân phối dừng Vì vậy, ý tưởng chính của phươngpháp MCMC là đi xây dựng một xích Markov có tính ergodic mà phânphối dừng là π Khi đó, chúng ta chạy X lên đến thời gian dài N và ướclượng E(h(Y )) bởi N1 PN

n=1h(Xn) Định lý ergodic cho ta biết với N đủlớn, ước lượng trên sẽ gần đến E(h(Y ))

Xích Markov quan tâm thường bắt đầu tại một trạng thái mà không cóphân phối dừng (ngược lại chúng ta không làm việc với MCMC) Ta có thểkhám phá hiệu quả trạng thái ban đầu có thể có trên các trạng thái đượctruy cập bởi xích Markov Để giảm khả năng của độ chệch, cái được gọi

Trang 24

là độ chệch khởi đầu do ảnh hưởng của kết quả của giá trị khởi động, một

M bước ban đầu của xích bị loại bỏ và ước lượng dựa trên trạng thái đượctruy cập sau thời gian M, tức là chúng ta sử dụng ergodic trung bình:

Như vậy, chúng ta bắt đầu với phân phối π và cố gắng tìm xích Markov

có tính ergodic mà phân phối dừng là π Với bất kỳ cách cho phân phối,thường là có nhiều xích Markov phù hợp Vì vậy, có nhiều cách khác nhautrong việc xây dựng một xích Markov mà phân phối hội tụ đến phân phốimục tiêu

Thực sự không phải quá khó để tìm một xích Markov có phân phốidừng là phân phối mong muốn Có một số các phương pháp, được gọi là

"lấy mẫu", mà chúng ta có thể sử dụng để tìm một xích Markov như vậy.Nếu xích được xây dựng là ergodic thì chúng ta có thể tiến hành bằng cách

mô phỏng xích đó và ước tính số lượng quan tâm

2.2 Mẫu Metropolis - Hastings

Cho S là không gian trạng thái của phân phối mục tiêu Quá trìnhchuyển đổi của một xích Metropolis-Hastings được tạo ra như sau Đầutiên, chúng ta chọn với mỗi x ∈ S một mật độ q(x, ·) trong S (hoặc hàmkhối xác suất nếu S là rời rạc) Vì vậy, q(x, ·), x ∈ S, xác định các xácsuất/mật độ chuyển của một xích Markov trong không gian trạng thái S,cho biết trạng thái hiện tại là x Các xác suất/ mật độ chuyển q(x, ·) nênđược chọn sao cho việc lấy mẫu được dễ dàng

Trang 25

Giả sử trạng thái hiện tại của xích Markov là Xn = x Khi đó, chúng

ta lấy mẫu một trạng thái z theo q(x, ·) Chúng ta đề xuất trạng thái znày như là trạng thái mới của xích và chấp nhận nó với xác suất

α(x, z) = min

1, π(z)q(z, x)π(x)q(x, z)

Định nghĩa 2.1 Mẫu Metropolis - Hastings Chọn các xác suất/mật

độ chuyển q(x, y), x, y ∈ S Chúng được gọi là các phân phối đề xuất Bâygiờ, giả sử Xn = x ∈ S

Tiến hành như sau:

1 Lấy mẫu Z= z dựa vào q(x, z), z ∈ S

2 Chấp nhận Z= z với xác suất

α(x, z) = min

1, π(z)q(z, x)π(x)q(x, z)

với 0<p<1, fi là các mật độ Chúng ta có thể lấy mẫu hỗn hợp bởi mẫu x

từ f1(·) với xác suất p và từ f2(·) với xác suất 1-p Ví dụ sau chỉ ra cáchlấy mẫu từ một phân phối hỗn hợp bằng cách sử dụng mẫu Metropolis -Hastings Mật độ trong ví dụ này có thể được lấy mẫu trực tiếp

Ví dụ 2.1 Mô phỏng phân phối hỗn hợp của hai phân phối chuẩn

Trang 26

• Mật độ mục tiêu là:

π(x) = p√ 1

2πσ1exp{−

12σ2 1

(x−µ1)2}+(1−p)√ 1

2πσ2exp{−

12σ2 2

• Quá trình mẫu Metropolis - Hastings như sau:

1 Chọn X0 = x0 ∈ R.

2 Giả sửXn = x Lấy mẫuz ∼ N (0, 1) và đặ y = x +z Chấp nhận

y với xác suất min

n

1, π(x)π(y)

o Nếu chấp nhận thì đặt Xn+1 = y,ngược lại thì đặt Xn+1 = x

Ví dụ 2.2 Điểm trên đường tròn đơn vị

Giả sử x = (x(1), , x(m)) là vị trí của m điểm trên đường tròn đơn vị.Đặt π(x(1), , x(m)) là mật độ mà phân phối m điểm độc lập cùng phânphối đều trên đường tròn đơn vị với điều kiện không có điểm nào nằm trongkhoảng cách d của mỗi điểm khác (phân phối kiểu này thường xảy ra trongcác thiết lập hóa học ở đó các điểm là tâm của phần tử dạng hình cầu cóđường kính d) Gọi A là biến cố khoảng cách nhỏ nhất giữa m điểm độc lập

Trang 27

cùng phần phối đều trên đường tròn đơn vị lớn hơn d và đặt p =P(A) Gọi

S là trạng thái của bất kỳ hình dạng m điểm trên (0, 2π) sao cho khoảngcách nhỏ nhất giữa các điểm lớn hơn d Khi đó phân phối mục tiêu củachúng ta là:

π(x) = 1

2πp1[x∈S]

Trong một chiều, ta có thể tính được p nhưng trong 2 chiều, điều này làkhông thể Cũng như ví dụ trước ta có một dạng đơn giản cho phân phốimục tiêu

Có cách dễ dàng chuyển từ một x ∈ S đến một trạng thái khác x0 ∈ S.Một cách như thế là chọn x ∈ x ngẫu nhiên và xóa nó đi và lấy một mẫu vịtrí mới z theo phân phối đều trên (0, 2π) Rồi thiết lập x0 = x ∪ {z}\{x}.(Điều này có thể tạo ra hình dạng x0 không nằm trong S nhưng như saunày ta thấy, điều này không thật sự là vấn đề) Phương pháp này được mô

1 Chọn i ∈ {1, 2, , m} ngẫu nhiên và lấy mẫu z từ phân phối chuẩntrên (0, 2π) Đặt z = x ∪ {z}\{x(i)}

Trang 28

2 Nếu z ∈ S thì chấp nhận z và đặt Xn+1 = z Nếu z /∈ S thì bác bỏ z

và đặt Xn+1 = x

Chúng ta xem xét một vài tính chất lý thuyết của thuật toán Metropolis

- Hastings (MH) Đầu tiên, có nhiều tự do trong việc chọn đề xuất kỹ thuật

q(x, y) Điều kiện cần là giá của mật độ mục tiêu π là tập con của giá củacác mật độ đề xuất thích hợp Chi tiết hơn, chúng ta cần:

S = supp(π) ⊆ [

x∈S

supp(q(x, ·))

Có thể thấy trong các ví dụ trước, xác suất chấp nhận α(x, y) cơ bản tỷ

lệ với π(·), vì vậy, chúng ta không cần biết hằng số tiêu chuẩn của π(·) để

có thể tính xác suất này Cũng có thể thấy rằng xác suất chấp nhận chứadạng giống với dạng trong các phương trình cân bằng chi tiết Điều nàykhông phải là trùng hợp ngẫu nhiên, xác suất chấp nhận được chọn saocho phương trình cân bằng chi tiết thỏa mãn Chúng ta xem xét phươngtrình cân bằng chi tiết của xích MH Đầu tiên, chúng ta cần xác định nhânchuyển của xích MH

Bổ đề 2 Nhân chuyển p(x, y) của mẫu Metropolis - Hastings được chobởi:

S q(x, y)(1 − α(x, y))dy Nếu S liên tục

(Chú ý rằng nhân chuyển không liên tục đối với độ đo Lebesgue.)

Chứng minh Giả sử S là rời rạc (trong trường hợp S liên tục, chứngminh tương tự) Nhắc lại rằng, xích chuyển đến trạng thái mới nếu trạngthái mới này được đề xuất và chấp nhận Điều này xảy ra với xác suất

q(x, y)α(x, y) Đây là xác suất chuyển từ trạng thái x đến y khi y 6= x.Bây giờ, ta xét xác suất chuyển từ x đến x Điều này có thể xảy ra theohai trường hợp Thứ nhất, ta có thể đề xuất x như là một trạng thái mới

Trang 29

và chấp nhận nó, với xác suất là q(x, x)α(x, x) Thứ hai, chúng ta đề xuấttrạng thái y nào đó và bác bỏ nó, khi đó xích trở lại trạng thái x Xác suấtxảy ra trường hợp này là:

r(x) = Σy∈Sq(x, y)(1 − α(x, y))

Tóm lại, xác suất chuyển của xích Metropolis - Hastings được cho bởi:

p(x, y) = q(x, y)α(x, y) + 1{x=y}r(x)

Bây giờ, chúng ta kiểm tra phương trình trạng thái cân bằng chi tiết

Bổ đề 3 Xích Metropolis - Hastings thỏa mãn phương trình trạng tháicân bằng đối với π

= π(y)q(y, x)α(y, x) = π(y)p(y, x)

Phương trình trạng thái cân bằng cũng đúng cho trường hợp tầm thường

x = y

Dựa vào cách chọn phân phối đề xuất mà chúng ta có một số phươngpháp MCMC sau

Trang 30

2.3 Một số thuật toán MCMC

2.3.1 Mẫu Gibbs

Mẫu Gibbs là một dạng lựa chọn phổ biến sử dụng phân phối có điềukiện đầy đủ như là phân phối đề xuất Cho xt = (x(1)t , , x(d)t ) và

x(−i)t = (x1, , x(i−1), x(i+1), , x(d))

Chúng ta chọn một thành phần i ∈ 1, , d và đề xuất như một trạng tháimới

Ví dụ 2.3 Phân phối chuẩn hai chiều Đây là một ví dụ nhỏ mà chúng

ta có thể lấy mẫu phân phối chuẩn hai chiều trực tiếp Nhưng nó minh họarất tốt cách làm việc của mẫu Gibbs Chúng ta muốn mẫu X và Y với mậtđộ:

Mật độ này chỉ ra một phân phối chuẩn hai chiều với kỳ vọng (0, 0)

và ma trận hiệp phương sai: Σ = 1 ρ

ρ 1

! Ta thấy (X|Y = y) có phânphối N (ρy, 1 − ρ2) và (Y |X = x) có phân phối N (ρx, 1 − ρ2) Giả sử

Xn = (xn, yn) thì ta tiến hành như sau Đầu tiên, ta lấy mẫu X = x từphân phối có điều kiện của (X|Y = yn) và tiếp theo lấy mẫu Y = y từphân phối có điều kiện của (Y |X = x) Khi đó ta đặt Xn+1 = (x, y)

Trang 32

trong đó X1 và X2 là các mẫu độc lập cùng phân phối π Do đó, trongtrạng thái dừng, xác suất chấp nhận của mẫu độc lập lớn hơn xác suấtchấp nhận của thuật toán lấy mẫu loại bỏ Điều này là dĩ nhiên đi kèmvới chi phí tạo ra một mẫu độc lập với chỉ tiệm cận phân phối chính xác.Tương tự với mẫu loại bỏ tạo cảm giác chọn một mẫu độc lập với phânphối đề xuất f là gần đến mức có thể mục tiêu π (Chú ý nếu f = π thìxích ngay lập tức đạt trạng thái dừng) Trong thực hành, phân phối đềxuất fθ thường xuyên phụ thuộc vào tham số θ nào đó và chúng ta điềuchỉnh tham số theo kinh nghiệm để có được tỷ lệ chấp nhận trung bìnhtốt Ta có thể sử dụng thử nghiệm để ước lượng tỷ lệ chấp nhận dự kiến.Nếu π(x) ≤ M f (x) thì ta thậm chí có thể tính toán tốc độ hội tụ củanhân chuyển đến phân phối dừng như sau Với y 6= x:

p(x, y) = f (y) min

π(y)f (x)π(x)f (y), 1

= min

π(y)f (x)π(y) , f (y)

Trang 33

Sử dụng quy nạp, bây giờ, ta có thể chỉ ra:

2.3.3 Mẫu Metropolis - Hastings du động ngẫu nhiên

Ở đây, chúng ta chọn q(x, y) = f (y − x) với hàm khối xác suất hoặcmật độ f nào đó Mẫu Metropolis - Hastings du động ngẫu nhiên có tênnhư vậy từ thực tế rằng sự đề xuất là được tạo ra theo một cách du độngngẫu nhiên, tức là:

Chú ý rằng nếu f là đối xứng qua 0 thì đây là một mẫu Metropolis Ví

dụ cho mẫu Metropolis cũng như mẫu du động ngẫu nhiên MH là phânphối trộn

Lựa chọn chung cho f là mật độ chuẩn đa biến, t- mật độ hoặc mật độđều

Trang 34

2.3.4 Mẫu Metropolis (thành phần đơn)

Đây là một đề xuất sáng tạo sử dụng hàm khối xác suất hoặc mật độ đềxuất đối xứng, tức là q(x, y) = q(y, x) Khi đó, xác suất chấp nhận đượcđơn giản hóa:

α(x, y) = min

1,π(x)π(y)

Để cung cấp một mô tả chính xác hơn, chúng ta giả sử chia khônggian tham số thành hai thành phần và trạng thái hiện tại Xt = (X1t, X2t).Thành phần thứ nhất Y1 bây giờ được lấy mẫu từ phân phối đề xuất đốixứng có điều kiện q1(·|(X1t, X2t)), và được chấp nhận là thành phần mới

1|Xt

2)

Ngược lại,X1t+1 = X1t Chú ý rằng, ở đây π(·|·)dùng để chỉ mật độ xác suất

có điều điện đầy đủ (tiến đến một hằng số tiêu chuẩn) và q1(Y1|(Xt

1, X2t))

là xác suất chuyển từ điểm X1t đến Y1 với điều kiện thành phần thứ hai là

X2t

Thành phần thứ hai được lấy mẫu từ phân phối đề xuất q2(·|(X1t, X2t))

và tương tự được chấp nhận với xác suất:

α = min

1, π(Y2|X1t+1)pi(X2t|Xt+1

Trang 35

Chương 3

MCMC thích nghi

Trong chương trước, chúng ta thấy rằng việc chọn lựa phân phối đềxuất là quan trọng cho sự hội tụ của thuật toán MCMC Tuy nhiên, việcchọn lựa được phân phối đề xuất tốt thường khó thực hiện vì thông tin

về mật độ mục tiêu là không có hoặc rất ít Hơn nữa, trong thuật toánMCMC, phân phối đề xuất được chọn cho mọi bước mô phỏng Để sử dụngcác thông tin đã thu được trong các bước mô phỏng trước để mô phỏngcho bước tiếp theo, chúng ta đưa ra thuật toán MCMC thích nghi Ở đó,phân phối đề xuất được cập nhật cùng quá trình sử dụng thông tin đầy

đủ tích lũy cho đến thời điểm hiện tại

Mỗi lựa chọn phân phối đề xuất thích nghi sẽ cho chúng ta một dạngMCMC thích nghi Trong chương này, chúng ta giới thiệu hai thuật toánMCMC thích nghi mà phân phối đề xuất thích nghi là phân phối chuẩntrên trạng thái hiện tại Đó là "Thuật toán Metropolis du động ngẫu nhiênthích nghi (Adaptive proposal distribution for random walk Metropolisalgorithm (AP))" và "Thuật toán Metropolis thích nghi (An adaptiveMetropolis algorithm (AM))" Đối với thuật toán AP, hiệp phương saicủa phân phối đề xuất Gauss được tính toán từ một số hữu hạn cố địnhcủa các trạng thái trước đó Đối với thuật toán AM, hiệp phương sai củaphân phối đề xuất được tính toán sử dụng tất cả các trạng thái trước.Chương này bao gồm hai phần chính Phần thứ nhất trình bày "Thuậttoán Metropolis du động ngẫu nhiên thích nghi", được trích dẫn chủ yếu

từ bài báo [6] Trong đó cũng đưa ra sự so sánh thuật toán này với một số

Định dạng
Số trang	70
Dung lượng	1,44 MB

Tài liệu tham khảo	Loại	Chi tiết
[1] Đặng Hùng Thắng, Mở đầu về lý thuyết xác suất và các ứng dụng, Nhà xuất bản Giáo dục, 2005	Khác
[2] Đặng Hùng Thắng, Quá trình ngẫu nhiên và tính toán ngẫu nhiên, Nhà xuất bản Đại học Quốc Gia Hà Nội, 2009	Khác
[3] Daren B. H. Cline and Huay-min H. Pu, Geometric ergodicity of non- linear time series, Texas A & M University. Statistica Sinica 9(1999), 1103-1118	Khác
[4] P.Hall, C.C.Heyde, Martingale limit theory and its application, Aca- demic Press, 1980	Khác
[5] Gareth Roberts, ST911 Fundamentals of Statistical Inference Part III, Department of Statistics, University of Warwick, 2012	Khác
[6] Heikki Haario, Eero Saksman, Johanna Tamminen, Adaptive pro- posal distribution for random walk Metropolis algorithm, University of Helsinki, Finland,1999	Khác
[7] Heikki Haario, Eero Saksman, Johanna Tamminen, An adaptive Metropolis algorithm, Bernoulli 7(2). 2001, 223 - 242	Khác
[8] Henri P. Gavin, The Levenberg-Marquardt method for nonlinear least squares curve-fitting problems, Duke University, September 29, 2015	Khác
[9] James Davidson, Robert de Jong, Strong laws of large number for dependent heterogeneous processes: A synthesis of recent and newre- sults, Econometric Reviews 16(3). 1997, 251-279	Khác