ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN --- NGUYỄN VĂN TÂN THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG Chuyên ngành: Lý thuyết xác suất và thống kê toán học Mã s
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
-
NGUYỄN VĂN TÂN
THUẬT TOÁN MÔ PHỎNG MCMC THÍCH
NGHI VÀ ỨNG DỤNG
Chuyên ngành: Lý thuyết xác suất và thống kê toán học
Mã số: 60460106
TÓM TẮT LUẬN VĂN THẠC SĨ KHOA HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS TRẦN MẠNH CƯỜNG
Trang 2Mục lục
1.1 Sự hội tụ của dãy đại lượng ngẫu nhiên 5
1.2 Dãy mixingale 6
1.3 Các thuật toán mô phỏng cơ bản 7
1.3.1 Phương pháp biến đổi nghịch đảo 7
1.3.2 Phương pháp loại bỏ 7
1.3.3 Phương pháp lấy mẫu quan trọng 7
1.4 Xích Markov 8
2 Phương pháp MCMC 11 2.1 Giới thiệu 11
2.2 Mẫu Metropolis - Hastings 11
2.3 Một số thuật toán MCMC 12
2.3.1 Mẫu Gibbs 12
2.3.2 Mẫu độc lập 12
2.3.3 Mẫu Metropolis - Hastings du động ngẫu nhiên 13
2.3.4 Mẫu Metropolis (thành phần đơn) 13
3 MCMC thích nghi 14 3.1 Thuật toán Metropolis du động ngẫu nhiên thích nghi 14
3.1.1 Mô tả thuật toán 14
3.1.2 Tính chất ergodic 15 3.1.3 So sánh các thuật toán Metropolis với thuật toán AP 15
Trang 33.2 Thuật toán Metropolis thích nghi 153.2.1 Mô tả thuật toán 153.2.2 Tính Ergodic 163.2.3 So sánh các thuật toán Metropolis với thuật toán AM 173.3 Một số ứng dụng của MCMC thích nghi 183.3.1 Mô hình mô phỏng GOMOS 183.3.2 Mô hình suy giảm oxy 18
Trang 4Lời nói đầu
Để tìm hiểu về MC, ta xét bài toán sau: Giả sử ta cần tính tích phân
1
0 = F (1) − F (0)
Tuy nhiên, trong nhiều trường hợp, ta không thể tìm được F(x) Giả sử
f (x) là hàm mật độ trên [0, 1] sao cho nếu h(x) 6= 0 thì f (x) > 0 Ta viếtlại I = R01 h(x)f (x)f (x)dx Khi đó, chúng ta lấy mẫu độc lập cùng phân phối
(x(1), , x(n)) từ phân phối xác định bởi mật độ f và xét:
ˆ
In = 1n
n
X
i=1
h(x(i))/f (x(i))
Luật số lớn cho ta thấy rằng Iˆn hội tụ với xác suất 1 tới tích phân I khi n
tiến tới ∞ nghĩa là Iˆ
n → I(h.c.c) Như vậy để tính xấp xỉ I, ta phải thựchiện n mô phỏng cho biến ngẫu nhiên X
Các mô phỏng MC cơ bản này có ưu điểm là dễ thực hiện Tuy nhiên,
nó chỉ mô phỏng được đối với các trường hợp đơn giản
Trong nhiều trường hợp phức tạp như số chiều tăng lên (phân phốinhiều chiều) thì các MC cơ bản không thể thực hiện được Đề giải quyếtvấn đề này, chúng ta đưa ra một phương pháp gọi là phương pháp MCMC
Ý tưởng chính của phương pháp MCMC là đi xây dựng một xích Markov
có tính ergodic mà phân phối dừng là π Khi đó, chúng ta chạy X lên đếnthời gian dài N và ước lượng E(h(Y )) bởi N1 PN
n=1h(Xn) Định lý ergodiccho ta biết với N đủ lớn, ước lượng trên sẽ gần đến E(h(Y ))
Chúng ta thấy rằng việc chọn lựa phân phối đề xuất là quan trọng cho
Trang 5sự hội tụ của thuật toán MCMC Việc chọn lựa được phân phối đề xuấttốt thường khó thực hiện vì thông tin về mật độ mục tiêu là không cóhoặc rất ít Hơn nữa, trong thuật toán MCMC, phân phối đề xuất đượcchọn cho mọi bước mô phỏng Để sử dụng các thông tin đã thu được trongcác bước mô phỏng trước để mô phỏng cho bước tiếp theo, chúng ta đưa
ra thuật toán MCMC thích nghi Ở đó, phân phối đề xuất được cập nhậtcùng quá trình sử dụng thông tin đầy đủ tích lũy cho đến thời điểm hiệntại Mỗi lựa chọn phân phối đề xuất thích nghi sẽ cho chúng ta một dạngMCMC thích nghi
Luận văn gồm 3 chương
• Chương 1 nhắc lại một số kiến thức bổ trợ về sự hội tụ của dãy đạilượng ngẫu nhiên, dãy mixingale, các thuật toán mô phỏng MC cơbản và xích Markov
• Chương 2 trình bày về các phương pháp MCMC cơ bản
• Chương 3 trình bày chi tiết về hai phương pháp MCMC thích nghi từhai bài báo [6] và [7] Đó là thuật toán Metropolis du động ngẫu nhiênthích nghi ([6]) và thuật toán Metropolis thích nghi ([7]) Chỉ ra tínhhội tụ của hai thuật toán và chứng minh tính ergodic của thuật toánMetropolis thích nghi Sau mỗi thuật toán đều đưa ra sự so sánh giữacác thuật toán MCMC Đồng thời đưa ra một số ứng dụng thực tếcủa mô hình MCMC thích nghi
Lời đầu tiên, xin chân thành cảm ơn thầy TS Trần Mạnh Cường đã nhậnhướng dẫn và tận tình giúp đỡ tôi hoàn thành luận văn này Lòng biết ơnsâu sắc tôi cũng xin được gửi đến các thầy cô trong Trường ĐHKHTN -ĐHQGHN, Khoa Toán - Cơ - Tin đã giúp đỡ tôi hoàn thành khóa học
Hà Nội tháng 12 năm 2015
Trang 6Chương 1
Kiến thức chuẩn bị
1.1 Sự hội tụ của dãy đại lượng ngẫu nhiên
Giả sử (Ω, F , P ) là không gian xác suất
Định nghĩa 1.1 Một dãy các đại lượng ngẫu nhiên hay biến ngẫu nhiên
(Xn) được gọi là hội tụ hầu chắc chắn đến biến ngẫu nhiên X nếu:
Trang 7Định nghĩa 1.4 Một dãy các biến ngẫu nhiên (Xn) được gọi là hội tụ theotrung bình bậc r đến biến ngẫu nhiên X nếu r ≥ 1, E|Xn|r < ∞ ∀n,
Trang 81.3 Các thuật toán mô phỏng cơ bản
Định lí 1.9 Xét hàm phân phối lũy tích (cdf) F (x) Gọi F−1 là nghịchđảo mở rộng của F, tức là:
Gọi U là một biến ngẫu nhiên phân phối đều (0, 1) và đặt X = F−1(U ),khi đó phân phối của X có cdf F (x) (Chú ý rằng đối với hàm phân phốiliên tục thì nghịch đảo mở rộng là nghịch đảo thông thường)
Giả sử chúng ta muốn lấy mẫu X là một biến ngẫu nhiên liên tục vớihàm mật độf (x) Chúng ta không biết cách lấy mẫu từ X nhưng chúng tabiết cách lấy mẫu từ một biến ngẫu nhiênY tương tự với hàm mật độ g(y).Gọi giá của f là supp(f ) = {x : f (x) > 0} Nếu ta có supp(f ) ⊆ supp(g)
Chúng ta lặp lại các bước sau cho đến khi một mẫu được trả về
• Bước 1: Lấy mẫu Y = y từ g(y) và U = u từ phân phối đều U(0, 1).Sang bước 2
• Bước 2: Nếu u ≤ M g(y)f (y) thì đặt X = y Ngược lại, quay lại bước 1
Bây giờ, chúng ta tạo ra một mẫu độc lập cùng phân phối (x1, , xn)
từ g và ước lượng I bởi:
1n
Trang 9trọng số quan trọng Chú ý rằng Iˆlà một ước lượng không chệch của I.
P(Xn+1 ∈ A|Xn = xn,Xn−1 = xn−1, , X0 = x0)
= P(Xn+1 ∈ A|Xn = xn)
với mọi n > 0, A ⊆ S, x0, x1, , xn ∈ S
Định nghĩa 1.11 Tối giản: Xích Markov X được gọi là tối giản nếu tất
cả các trạng thái đều liên lạc được, tức là với mọi i, j ∈ S, có một số n ≥ 0
sao cho:
P(Xn = i|X0 = j) > 0
Định nghĩa 1.12 Hồi quy Một xích Markov X được gọi là hồi quy nếuxác suất để xích xuất phát từ trạng thái i quay trở lại i sau hữu hạn bướcbằng 1, tức là:
P(Xtrở lại trạng thái i sau hữu hạn bước |X0 = i) = 1 ∀i ∈ S
Định nghĩa 1.13 Hồi quy dương : Một xích hồi quy được gọi là hồiquy dương nếu E(Tii) < ∞ với mọi i ∈ S, trong đó Tii là khoảng thời gianlần đầu tiên trở về trạng thái i Nếu xích Markov là ergodic với phân phốidừng π thì
π(i) = 1/E(Tii)
Ở đây, phân phối dừng π = (π(1), π(2), ) còn được gọi là phân phối giớihạn
Trang 10Định lí 1.14 Trạng thái i là hồi quy khi và chỉ khi P∞
n=1p(n)ii = ∞
Định nghĩa 1.15 Tính không chu kỳ:
Một xích Markov được gọi là không có chu kỳ nếu không tồn tại d > 2 vàcác tập con rời nhau S1, S2, , Sd ⊂ S sao cho:
Định nghĩa 1.17 Khoảng cách biến phân giữa hai độ đo xác suất P1 và
P2 được định nghĩa bởi:
Trang 11Định lí 1.20 Định lý ergodic: Cho h là một hàm thực nào đó và X làmột xích Markov có tính ergodic với phân phối dừng π Xét ergodic trungbình:
N hội tụ đến Eπ(h(Y )) với xác suất 1
Định lí 1.21 Định lý giới hạn trung tâm Nếu X là ergodic hình học([3])và Eπ(h(Y )2+ε) < ∞ với ε > 0 thì
Trang 12và các phương pháp mô phỏng cơ bản cũng không thực hiện được Đề giảiquyết vấn đề này, chúng ta đưa ra một phương pháp gọi là phương phápMCMC.
Ý tưởng chính của phương pháp MCMC là đi xây dựng một xích Markov
có tính ergodic mà phân phối dừng là π Khi đó, chúng ta chạy X lên đếnthời gian dài N và ước lượng E(h(Y )) bởi N1 PN
n=1h(Xn) Định lý ergodiccho ta biết với N đủ lớn, ước lượng trên sẽ gần đến E(h(Y ))
2.2 Mẫu Metropolis - Hastings
Định nghĩa 2.1 Mẫu Metropolis - Hastings Chọn các xác suất/mật
độ chuyển q(x, y), x, y ∈ S Chúng được gọi là các phân phối đề xuất Bâygiờ, giả sử Xn = x ∈ S
Tiến hành như sau:
Trang 131 Lấy mẫu Z= z dựa vào q(x, z), z ∈ S
2 Chấp nhận Z= z với xác suất
α(x, z) = min
1, π(z)q(z, x)π(x)q(x, z)
x(−i)t = (x1, , x(i−1), x(i+1), , x(d))
Chúng ta chọn một thành phần i ∈ 1, , d và đề xuất như một trạng tháimới
Như tên gọi chỉ trạng thái mẫu độc lập đề suất không phụ thuộc vàotrạng thái hiện tại của xích, tức là q(x, y) = f (y) với mọi x ∈ S, trong đó
Trang 14f là một hàm khối xác suất hoặc mật độ Xác suất chấp nhận cho mẫuđộc lập quy về:
α(x, y) = min
1, π(y)f (x)π(x)f (y)
Ở đây, chúng ta chọn q(x, y) = f (y − x) với hàm khối xác suất hoặcmật độ f nào đó Mẫu Metropolis - Hastings du động ngẫu nhiên có tênnhư vậy từ thực tế rằng sự đề xuất là được tạo ra theo một cách du độngngẫu nhiên, tức là:
Chú ý rằng nếu f là đối xứng qua 0 thì đây là một mẫu Metropolis Ví
dụ cho mẫu Metropolis cũng như mẫu du động ngẫu nhiên MH là phânphối trộn
Đây là một đề xuất sáng tạo sử dụng hàm khối xác suất hoặc mật độ đềxuất đối xứng, tức là q(x, y) = q(y, x) Khi đó, xác suất chấp nhận đượcđơn giản hóa:
α(x, y) = min
1,π(x)π(y)
Trang 15
Chương 3
MCMC thích nghi
3.1 Thuật toán Metropolis du động ngẫu nhiên thích
nghi
Giả sử rằng các điểm X1, X2, , Xk đã được lấy mẫu Khi đó một điểmứng viên Y được lấy mẫu từ phân phối đề xuất qk(·|X1, X2, , Xk) màbây giờ phụ thuộc vào lịch sử (X1, X2, , Xk) (hoặc là một phần của lịchsử) Điểm ứng viên được chấp nhận với xác suất:
α(Y, Xk) = min
1, π(Y )π(Xk)
,
trong đó, π(·) biểu thị mật độ xác suất của phân phối mục tiêu Trongtrường hợp chấp nhận thì ta đặt Xk+1 = Y, ngược lại, Xk+1 = Xk Phânphối đề xuất qk(·|X1, X2, , Xk) là phân phối Gauss với kỳ vọng (trungbình) tại Xk và hiệp phương sai phụ thuộc vào một phần của lịch sử
qt(·|X1, , Xt) ∼ N (Xt, c2dRt),
trong đó Rt là ma trận hiệp phương sai cấp d × d được xác định bởi Hđiểm Xt−H+1, Xt−H+2 , Xt và yếu tố tỷ lệ cd chỉ phụ thuộc vào số chiều
d Hiệp phương sai Rt có thể được tính toán bởi họ các điểm Xt−H+1,
Xt−H+2 , Xt trong một ma trận K cấp H × d, ở đây mỗi hàng đại diện
Trang 16cho một điểm lấy mẫu Khi đó
(Xn) trong AP Để đơn giản, chúng ta giả sử phân phối mục tiêu π bị chặn
và chúng ta chỉ định một cận dưới cho kích thước của phân phối đề xuất.Bằng cách chiếu phân phối giới hạn của xích (Yk) trở lại Rd thu được phânphối eπ mà Xk mô phỏng cuối cùng Vì tính đo được của các tập A nênhầu chắc chắn rằng:
e
π(A) = lim
n→∞(χA(X1) + χA(X2) + + χA(Xn)),
với χA là hàm đặc trưng của tập A
3.2 Thuật toán Metropolis thích nghi
Giả sử rằng tại thời điểm t − 1 chúng ta lấy mẫu các trạng thái
X0, X1, , Xt−1, trong đó X0 là trạng thái ban đầu Khi đó điểm ứng viên
Y được lấy mẫu từ phân phối đề xuất (đối xứng tiệm cận)qt(·|X0, , Xt−1),
Trang 17bây giờ, nó phụ thuộc vào toàn bộ lịch sử X0, , Xt−1 Điểm ứng viên Y
được chấp nhận với xác suất:
Mục tiêu trong đoạn này chỉ ra thuật toán AM có tính ergodic đúng và
vì thế cung cấp mô phỏng chính xác của phân phối mục tiêu
Định lí 3.1 Cho π là mật độ của phân phối mục tiêu có giá trên mộttập con đo được bị chặn S ⊂ Rd, và giả sử rằng π là bị chặn trên Cho
ε > 0 và µ0 là phân phối ban đầu bất kì trên S Định nghĩa xích AM (Xn)
bởi dãy xác suất chuyển tổng quát như trong định nghĩa 3.1 Khi đó xích
AM mô phỏng một cách đúng đắn phân phối mục tiêu π: với bất kỳ hàm
Trang 18hầu chắc chắn.
Các thuật toán được so sánh là
• Thuật toán Metropolis du động ngẫu nhiên (M) với một phân phối
đề xuất Gauss,
• Thuật toán Metropolis - Hastings thành phần đơn (SC) với một phânphối đề xuất Gauss,
• Thuật toán Metropolis du động ngẫu nhiên thích nghi (AP)
• Thuật toán Metropolis thích nghi (AM)
Các phân phối mục tiêu thực nghiệm
Các phân phối mục tiêu thực nghiệm được đưa ra như trong mục 3.1.3gồm π1, π2, π3, π4
Kết quả mô phỏng (Hình 3.5)
Hình 3.1: So sánh các thuật toán SC, M, AP, AM với các phân phối mục tiêu 8- chiều
π1, π2, π3, π4 Đồ thị thể hiện err(≤ 68, 3%) và std(≤ 68, 3%)
Trang 193.3 Một số ứng dụng của MCMC thích nghi
Trong thực tế có nhiều ứng dụng của MCMC ([10], mục 7 và [6] ) Đólà: Mô hình suy giảm oxy, mô hình tăng trưởng sinh vật phù du và hạnchế dinh dưỡng, mô hình mô phỏng GOMOS
Trong đoạn này, chúng ta sẽ chỉ xét bài toán ngược đầu tiên, vì thế dữliệu tương ứng với tia l là hàm truyền đo được Tabs = [T1abs(l), , TΛabs(l)]T
Ở đây số mũ là S(N ) = (G(N (l)) − Tabs(l))T(C(l))−1(G(N (l)) − Tabs(l))
Đo lường ước lượng cho mỗi bước sóng λ là:
Gλ(N (l)) = e−ΣJj=1 σj(λ)Nj(l)
Bài toán nghịch đảo truyền thống được giải với giả thiết không có thôngtin đã biết Do đó, chúng ta áp dụng phương pháp MCMC thích nghi chobài toán này
Với các tham số bộ nhớ và tham số tần số cần có trong thuật toán AP,chúng ta sử dụng H = U = 500 Độ dài xích là 20000
Theo dõi ước lượng sự thay đổi theo thời gian của sự hô hấp mùa đôngtrong hồ Tuusulanj¨arvi và để đánh giá tác động lâu dài của sự thêm và
Trang 20Hình 3.2: Mật độ khí bởi mô phỏng AP tại độ cao 30km Từ trên xuống dưới là: Mật
độ không khí, ozone, N O2, N O3, aerosols
giảm bớt không khí nhân tạo ([10], mục 7 ) Ảnh hưởng của oxy nhân tạođược nghiên cứu bởi mô hình tiêu thụ oxy sau:
Trang 21Kết luận
Các kết quả chính thu được là:
1 Tìm hiểu về phương pháp MCMC, tập trung vào một số thuật toánMCMC như mẫu Gibbs, mẫu độc lập, mẫu Metropolis - Hastings duđộng ngẫu nhiên, mẫu Metropolis thành phần đơn
2 Tìm hiểu về hai thuật toán MCMC thích nghi, so sánh ưu nhược điểm
và đưa ra các ứng dụng
Nếu thời gian cho phép, luận văn có thể:
+ Tìm hiểu thêm một số thuật toán MCMC thích nghi khác.+ Viết chương trình và áp dụng MCMC cho các bài toán thực tế ởViệt Nam
Trang 22Tài liệu tham khảo
[1] Đặng Hùng Thắng, Mở đầu về lý thuyết xác suất và các ứng dụng,Nhà xuất bản Giáo dục, 2005
[2] Đặng Hùng Thắng, Quá trình ngẫu nhiên và tính toán ngẫu nhiên,Nhà xuất bản Đại học Quốc Gia Hà Nội, 2009
[3] Daren B H Cline and Huay-min H Pu, Geometric ergodicity of linear time series, Texas A & M University Statistica Sinica 9(1999),1103-1118
non-[4] P.Hall, C.C.Heyde, Martingale limit theory and its application, demic Press, 1980
Aca-[5] Gareth Roberts, ST911 Fundamentals of Statistical Inference Part III,Department of Statistics, University of Warwick, 2012
[6] Heikki Haario, Eero Saksman, Johanna Tamminen, Adaptive posal distribution for random walk Metropolis algorithm, University
Trang 23[10] Marko Laine, Adaptive MCMC methods with applications in mental and geophysical models, Finnish meteorological institute con-tributions No.69, 2008.