THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN --- NGUYỄN VĂN TÂN THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã s

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

-

NGUYỄN VĂN TÂN

THUẬT TOÁN MÔ PHỎNG MCMC THÍCH

NGHI VÀ ỨNG DỤNG

Chuyên ngành: Lý thuyết xác suất và thống kê toán học

Mã số: 60460106

TÓM TẮT LUẬN VĂN THẠC SĨ KHOA HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC:

TS TRẦN MẠNH CƯỜNG

Trang 2

Mục lục

1.1 Sự hội tụ của dãy đại lượng ngẫu nhiên 5

1.2 Dãy mixingale 6

1.3 Các thuật toán mô phỏng cơ bản 7

1.3.1 Phương pháp biến đổi nghịch đảo 7

1.3.2 Phương pháp loại bỏ 7

1.3.3 Phương pháp lấy mẫu quan trọng 7

1.4 Xích Markov 8

2 Phương pháp MCMC 11 2.1 Giới thiệu 11

2.2 Mẫu Metropolis - Hastings 11

2.3 Một số thuật toán MCMC 12

2.3.1 Mẫu Gibbs 12

2.3.2 Mẫu độc lập 12

2.3.3 Mẫu Metropolis - Hastings du động ngẫu nhiên 13

2.3.4 Mẫu Metropolis (thành phần đơn) 13

3 MCMC thích nghi 14 3.1 Thuật toán Metropolis du động ngẫu nhiên thích nghi 14

3.1.1 Mô tả thuật toán 14

3.1.2 Tính chất ergodic 15 3.1.3 So sánh các thuật toán Metropolis với thuật toán AP 15

Trang 3

3.2 Thuật toán Metropolis thích nghi 153.2.1 Mô tả thuật toán 153.2.2 Tính Ergodic 163.2.3 So sánh các thuật toán Metropolis với thuật toán AM 173.3 Một số ứng dụng của MCMC thích nghi 183.3.1 Mô hình mô phỏng GOMOS 183.3.2 Mô hình suy giảm oxy 18

Trang 4

Lời nói đầu

Để tìm hiểu về MC, ta xét bài toán sau: Giả sử ta cần tính tích phân

1

0 = F (1) − F (0)

Tuy nhiên, trong nhiều trường hợp, ta không thể tìm được F(x) Giả sử

f (x) là hàm mật độ trên [0, 1] sao cho nếu h(x) 6= 0 thì f (x) > 0 Ta viếtlại I = R01 h(x)f (x)f (x)dx Khi đó, chúng ta lấy mẫu độc lập cùng phân phối

(x(1), , x(n)) từ phân phối xác định bởi mật độ f và xét:

ˆ

In = 1n

n

X

i=1

h(x(i))/f (x(i))

Luật số lớn cho ta thấy rằng Iˆn hội tụ với xác suất 1 tới tích phân I khi n

tiến tới ∞ nghĩa là Iˆ

n → I(h.c.c) Như vậy để tính xấp xỉ I, ta phải thựchiện n mô phỏng cho biến ngẫu nhiên X

Các mô phỏng MC cơ bản này có ưu điểm là dễ thực hiện Tuy nhiên,

nó chỉ mô phỏng được đối với các trường hợp đơn giản

Trong nhiều trường hợp phức tạp như số chiều tăng lên (phân phốinhiều chiều) thì các MC cơ bản không thể thực hiện được Đề giải quyếtvấn đề này, chúng ta đưa ra một phương pháp gọi là phương pháp MCMC

Ý tưởng chính của phương pháp MCMC là đi xây dựng một xích Markov

có tính ergodic mà phân phối dừng là π Khi đó, chúng ta chạy X lên đếnthời gian dài N và ước lượng E(h(Y )) bởi N1 PN

n=1h(Xn) Định lý ergodiccho ta biết với N đủ lớn, ước lượng trên sẽ gần đến E(h(Y ))

Chúng ta thấy rằng việc chọn lựa phân phối đề xuất là quan trọng cho

Trang 5

sự hội tụ của thuật toán MCMC Việc chọn lựa được phân phối đề xuấttốt thường khó thực hiện vì thông tin về mật độ mục tiêu là không cóhoặc rất ít Hơn nữa, trong thuật toán MCMC, phân phối đề xuất đượcchọn cho mọi bước mô phỏng Để sử dụng các thông tin đã thu được trongcác bước mô phỏng trước để mô phỏng cho bước tiếp theo, chúng ta đưa

ra thuật toán MCMC thích nghi Ở đó, phân phối đề xuất được cập nhậtcùng quá trình sử dụng thông tin đầy đủ tích lũy cho đến thời điểm hiệntại Mỗi lựa chọn phân phối đề xuất thích nghi sẽ cho chúng ta một dạngMCMC thích nghi

Luận văn gồm 3 chương

• Chương 1 nhắc lại một số kiến thức bổ trợ về sự hội tụ của dãy đạilượng ngẫu nhiên, dãy mixingale, các thuật toán mô phỏng MC cơbản và xích Markov

• Chương 2 trình bày về các phương pháp MCMC cơ bản

• Chương 3 trình bày chi tiết về hai phương pháp MCMC thích nghi từhai bài báo [6] và [7] Đó là thuật toán Metropolis du động ngẫu nhiênthích nghi ([6]) và thuật toán Metropolis thích nghi ([7]) Chỉ ra tínhhội tụ của hai thuật toán và chứng minh tính ergodic của thuật toánMetropolis thích nghi Sau mỗi thuật toán đều đưa ra sự so sánh giữacác thuật toán MCMC Đồng thời đưa ra một số ứng dụng thực tếcủa mô hình MCMC thích nghi

Lời đầu tiên, xin chân thành cảm ơn thầy TS Trần Mạnh Cường đã nhậnhướng dẫn và tận tình giúp đỡ tôi hoàn thành luận văn này Lòng biết ơnsâu sắc tôi cũng xin được gửi đến các thầy cô trong Trường ĐHKHTN -ĐHQGHN, Khoa Toán - Cơ - Tin đã giúp đỡ tôi hoàn thành khóa học

Hà Nội tháng 12 năm 2015

Trang 6

Chương 1

Kiến thức chuẩn bị

1.1 Sự hội tụ của dãy đại lượng ngẫu nhiên

Giả sử (Ω, F , P ) là không gian xác suất

Định nghĩa 1.1 Một dãy các đại lượng ngẫu nhiên hay biến ngẫu nhiên

(Xn) được gọi là hội tụ hầu chắc chắn đến biến ngẫu nhiên X nếu:

Trang 7

Định nghĩa 1.4 Một dãy các biến ngẫu nhiên (Xn) được gọi là hội tụ theotrung bình bậc r đến biến ngẫu nhiên X nếu r ≥ 1, E|Xn|r < ∞ ∀n,

Trang 8

1.3 Các thuật toán mô phỏng cơ bản

Định lí 1.9 Xét hàm phân phối lũy tích (cdf) F (x) Gọi F−1 là nghịchđảo mở rộng của F, tức là:

Gọi U là một biến ngẫu nhiên phân phối đều (0, 1) và đặt X = F−1(U ),khi đó phân phối của X có cdf F (x) (Chú ý rằng đối với hàm phân phốiliên tục thì nghịch đảo mở rộng là nghịch đảo thông thường)

Giả sử chúng ta muốn lấy mẫu X là một biến ngẫu nhiên liên tục vớihàm mật độf (x) Chúng ta không biết cách lấy mẫu từ X nhưng chúng tabiết cách lấy mẫu từ một biến ngẫu nhiênY tương tự với hàm mật độ g(y).Gọi giá của f là supp(f ) = {x : f (x) > 0} Nếu ta có supp(f ) ⊆ supp(g)

Chúng ta lặp lại các bước sau cho đến khi một mẫu được trả về

• Bước 1: Lấy mẫu Y = y từ g(y) và U = u từ phân phối đều U(0, 1).Sang bước 2

• Bước 2: Nếu u ≤ M g(y)f (y) thì đặt X = y Ngược lại, quay lại bước 1

Bây giờ, chúng ta tạo ra một mẫu độc lập cùng phân phối (x1, , xn)

từ g và ước lượng I bởi:

1n

Trang 9

trọng số quan trọng Chú ý rằng Iˆlà một ước lượng không chệch của I.

P(Xn+1 ∈ A|Xn = xn,Xn−1 = xn−1, , X0 = x0)

= P(Xn+1 ∈ A|Xn = xn)

với mọi n > 0, A ⊆ S, x0, x1, , xn ∈ S

Định nghĩa 1.11 Tối giản: Xích Markov X được gọi là tối giản nếu tất

cả các trạng thái đều liên lạc được, tức là với mọi i, j ∈ S, có một số n ≥ 0

sao cho:

P(Xn = i|X0 = j) > 0

Định nghĩa 1.12 Hồi quy Một xích Markov X được gọi là hồi quy nếuxác suất để xích xuất phát từ trạng thái i quay trở lại i sau hữu hạn bướcbằng 1, tức là:

P(Xtrở lại trạng thái i sau hữu hạn bước |X0 = i) = 1 ∀i ∈ S

Định nghĩa 1.13 Hồi quy dương : Một xích hồi quy được gọi là hồiquy dương nếu E(Tii) < ∞ với mọi i ∈ S, trong đó Tii là khoảng thời gianlần đầu tiên trở về trạng thái i Nếu xích Markov là ergodic với phân phốidừng π thì

π(i) = 1/E(Tii)

Ở đây, phân phối dừng π = (π(1), π(2), ) còn được gọi là phân phối giớihạn

Trang 10

Định lí 1.14 Trạng thái i là hồi quy khi và chỉ khi P∞

n=1p(n)ii = ∞

Định nghĩa 1.15 Tính không chu kỳ:

Một xích Markov được gọi là không có chu kỳ nếu không tồn tại d > 2 vàcác tập con rời nhau S1, S2, , Sd ⊂ S sao cho:

Định nghĩa 1.17 Khoảng cách biến phân giữa hai độ đo xác suất P1 và

P2 được định nghĩa bởi:

Trang 11

Định lí 1.20 Định lý ergodic: Cho h là một hàm thực nào đó và X làmột xích Markov có tính ergodic với phân phối dừng π Xét ergodic trungbình:

N hội tụ đến Eπ(h(Y )) với xác suất 1

Định lí 1.21 Định lý giới hạn trung tâm Nếu X là ergodic hình học([3])và Eπ(h(Y )2+ε) < ∞ với ε > 0 thì

Trang 12

và các phương pháp mô phỏng cơ bản cũng không thực hiện được Đề giảiquyết vấn đề này, chúng ta đưa ra một phương pháp gọi là phương phápMCMC.

Ý tưởng chính của phương pháp MCMC là đi xây dựng một xích Markov

có tính ergodic mà phân phối dừng là π Khi đó, chúng ta chạy X lên đếnthời gian dài N và ước lượng E(h(Y )) bởi N1 PN

n=1h(Xn) Định lý ergodiccho ta biết với N đủ lớn, ước lượng trên sẽ gần đến E(h(Y ))

2.2 Mẫu Metropolis - Hastings

Định nghĩa 2.1 Mẫu Metropolis - Hastings Chọn các xác suất/mật

độ chuyển q(x, y), x, y ∈ S Chúng được gọi là các phân phối đề xuất Bâygiờ, giả sử Xn = x ∈ S

Tiến hành như sau:

Trang 13

1 Lấy mẫu Z= z dựa vào q(x, z), z ∈ S

2 Chấp nhận Z= z với xác suất

α(x, z) = min

1, π(z)q(z, x)π(x)q(x, z)

x(−i)t = (x1, , x(i−1), x(i+1), , x(d))

Chúng ta chọn một thành phần i ∈ 1, , d và đề xuất như một trạng tháimới

Như tên gọi chỉ trạng thái mẫu độc lập đề suất không phụ thuộc vàotrạng thái hiện tại của xích, tức là q(x, y) = f (y) với mọi x ∈ S, trong đó

Trang 14

f là một hàm khối xác suất hoặc mật độ Xác suất chấp nhận cho mẫuđộc lập quy về:

α(x, y) = min

1, π(y)f (x)π(x)f (y)

Ở đây, chúng ta chọn q(x, y) = f (y − x) với hàm khối xác suất hoặcmật độ f nào đó Mẫu Metropolis - Hastings du động ngẫu nhiên có tênnhư vậy từ thực tế rằng sự đề xuất là được tạo ra theo một cách du độngngẫu nhiên, tức là:

Chú ý rằng nếu f là đối xứng qua 0 thì đây là một mẫu Metropolis Ví

dụ cho mẫu Metropolis cũng như mẫu du động ngẫu nhiên MH là phânphối trộn

Đây là một đề xuất sáng tạo sử dụng hàm khối xác suất hoặc mật độ đềxuất đối xứng, tức là q(x, y) = q(y, x) Khi đó, xác suất chấp nhận đượcđơn giản hóa:

α(x, y) = min

1,π(x)π(y)

Trang 15

Chương 3

MCMC thích nghi

3.1 Thuật toán Metropolis du động ngẫu nhiên thích

nghi

Giả sử rằng các điểm X1, X2, , Xk đã được lấy mẫu Khi đó một điểmứng viên Y được lấy mẫu từ phân phối đề xuất qk(·|X1, X2, , Xk) màbây giờ phụ thuộc vào lịch sử (X1, X2, , Xk) (hoặc là một phần của lịchsử) Điểm ứng viên được chấp nhận với xác suất:

α(Y, Xk) = min

1, π(Y )π(Xk)

,

trong đó, π(·) biểu thị mật độ xác suất của phân phối mục tiêu Trongtrường hợp chấp nhận thì ta đặt Xk+1 = Y, ngược lại, Xk+1 = Xk Phânphối đề xuất qk(·|X1, X2, , Xk) là phân phối Gauss với kỳ vọng (trungbình) tại Xk và hiệp phương sai phụ thuộc vào một phần của lịch sử

qt(·|X1, , Xt) ∼ N (Xt, c2dRt),

trong đó Rt là ma trận hiệp phương sai cấp d × d được xác định bởi Hđiểm Xt−H+1, Xt−H+2 , Xt và yếu tố tỷ lệ cd chỉ phụ thuộc vào số chiều

d Hiệp phương sai Rt có thể được tính toán bởi họ các điểm Xt−H+1,

Xt−H+2 , Xt trong một ma trận K cấp H × d, ở đây mỗi hàng đại diện

Trang 16

cho một điểm lấy mẫu Khi đó

(Xn) trong AP Để đơn giản, chúng ta giả sử phân phối mục tiêu π bị chặn

và chúng ta chỉ định một cận dưới cho kích thước của phân phối đề xuất.Bằng cách chiếu phân phối giới hạn của xích (Yk) trở lại Rd thu được phânphối eπ mà Xk mô phỏng cuối cùng Vì tính đo được của các tập A nênhầu chắc chắn rằng:

e

π(A) = lim

n→∞(χA(X1) + χA(X2) + + χA(Xn)),

với χA là hàm đặc trưng của tập A

3.2 Thuật toán Metropolis thích nghi

Giả sử rằng tại thời điểm t − 1 chúng ta lấy mẫu các trạng thái

X0, X1, , Xt−1, trong đó X0 là trạng thái ban đầu Khi đó điểm ứng viên

Y được lấy mẫu từ phân phối đề xuất (đối xứng tiệm cận)qt(·|X0, , Xt−1),

Trang 17

bây giờ, nó phụ thuộc vào toàn bộ lịch sử X0, , Xt−1 Điểm ứng viên Y

được chấp nhận với xác suất:

Mục tiêu trong đoạn này chỉ ra thuật toán AM có tính ergodic đúng và

vì thế cung cấp mô phỏng chính xác của phân phối mục tiêu

Định lí 3.1 Cho π là mật độ của phân phối mục tiêu có giá trên mộttập con đo được bị chặn S ⊂ Rd, và giả sử rằng π là bị chặn trên Cho

ε > 0 và µ0 là phân phối ban đầu bất kì trên S Định nghĩa xích AM (Xn)

bởi dãy xác suất chuyển tổng quát như trong định nghĩa 3.1 Khi đó xích

AM mô phỏng một cách đúng đắn phân phối mục tiêu π: với bất kỳ hàm

Trang 18

hầu chắc chắn.

Các thuật toán được so sánh là

• Thuật toán Metropolis du động ngẫu nhiên (M) với một phân phối

đề xuất Gauss,

• Thuật toán Metropolis - Hastings thành phần đơn (SC) với một phânphối đề xuất Gauss,

• Thuật toán Metropolis du động ngẫu nhiên thích nghi (AP)

• Thuật toán Metropolis thích nghi (AM)

Các phân phối mục tiêu thực nghiệm

Các phân phối mục tiêu thực nghiệm được đưa ra như trong mục 3.1.3gồm π1, π2, π3, π4

Kết quả mô phỏng (Hình 3.5)

Hình 3.1: So sánh các thuật toán SC, M, AP, AM với các phân phối mục tiêu 8- chiều

π1, π2, π3, π4 Đồ thị thể hiện err(≤ 68, 3%) và std(≤ 68, 3%)

Trang 19

3.3 Một số ứng dụng của MCMC thích nghi

Trong thực tế có nhiều ứng dụng của MCMC ([10], mục 7 và [6] ) Đólà: Mô hình suy giảm oxy, mô hình tăng trưởng sinh vật phù du và hạnchế dinh dưỡng, mô hình mô phỏng GOMOS

Trong đoạn này, chúng ta sẽ chỉ xét bài toán ngược đầu tiên, vì thế dữliệu tương ứng với tia l là hàm truyền đo được Tabs = [T1abs(l), , TΛabs(l)]T

Ở đây số mũ là S(N ) = (G(N (l)) − Tabs(l))T(C(l))−1(G(N (l)) − Tabs(l))

Đo lường ước lượng cho mỗi bước sóng λ là:

Gλ(N (l)) = e−ΣJj=1 σj(λ)Nj(l)

Bài toán nghịch đảo truyền thống được giải với giả thiết không có thôngtin đã biết Do đó, chúng ta áp dụng phương pháp MCMC thích nghi chobài toán này

Với các tham số bộ nhớ và tham số tần số cần có trong thuật toán AP,chúng ta sử dụng H = U = 500 Độ dài xích là 20000

Theo dõi ước lượng sự thay đổi theo thời gian của sự hô hấp mùa đôngtrong hồ Tuusulanj¨arvi và để đánh giá tác động lâu dài của sự thêm và

Trang 20

Hình 3.2: Mật độ khí bởi mô phỏng AP tại độ cao 30km Từ trên xuống dưới là: Mật

độ không khí, ozone, N O2, N O3, aerosols

giảm bớt không khí nhân tạo ([10], mục 7 ) Ảnh hưởng của oxy nhân tạođược nghiên cứu bởi mô hình tiêu thụ oxy sau:

Trang 21

Kết luận

Các kết quả chính thu được là:

1 Tìm hiểu về phương pháp MCMC, tập trung vào một số thuật toánMCMC như mẫu Gibbs, mẫu độc lập, mẫu Metropolis - Hastings duđộng ngẫu nhiên, mẫu Metropolis thành phần đơn

2 Tìm hiểu về hai thuật toán MCMC thích nghi, so sánh ưu nhược điểm

và đưa ra các ứng dụng

Nếu thời gian cho phép, luận văn có thể:

+ Tìm hiểu thêm một số thuật toán MCMC thích nghi khác.+ Viết chương trình và áp dụng MCMC cho các bài toán thực tế ởViệt Nam

Trang 22

Tài liệu tham khảo

[1] Đặng Hùng Thắng, Mở đầu về lý thuyết xác suất và các ứng dụng,Nhà xuất bản Giáo dục, 2005

[2] Đặng Hùng Thắng, Quá trình ngẫu nhiên và tính toán ngẫu nhiên,Nhà xuất bản Đại học Quốc Gia Hà Nội, 2009

[3] Daren B H Cline and Huay-min H Pu, Geometric ergodicity of linear time series, Texas A & M University Statistica Sinica 9(1999),1103-1118

non-[4] P.Hall, C.C.Heyde, Martingale limit theory and its application, demic Press, 1980

Aca-[5] Gareth Roberts, ST911 Fundamentals of Statistical Inference Part III,Department of Statistics, University of Warwick, 2012

[6] Heikki Haario, Eero Saksman, Johanna Tamminen, Adaptive posal distribution for random walk Metropolis algorithm, University

Trang 23

[10] Marko Laine, Adaptive MCMC methods with applications in mental and geophysical models, Finnish meteorological institute con-tributions No.69, 2008.

Định dạng
Số trang	23
Dung lượng	551,28 KB