Luận văn thạc sĩ HUS phương pháp MCMC và một số ứng dụng

Thuật toán Metropolis - Hasting đối với phân phối nhiều chiều: giớithiệu ứng dụng của thuật toán Metropolis - Hasting đối với các biến ngẫunhiên nhiều chiều bằng cập nhật từng khối, cập

Suy luận Bayes

Đặc điểm mô hình Bayes

Theo như những nghiên cứu toán học đã biết thì để xác định mô hình Bayes ta cần :

(i) Chỉ rõ một mô hình lấy mẫu từ dữ liệu quan sát X, có điều kiện trên một đại lượng chưa biết θ.

X ∼f (X|θ) (X ∈ X, θ ∈ Θ) (1.3) ở đó f (X|θ) là hàm mật độ xác suất, và

(ii) Chỉ rõ một phân phối biên,được gọi là phân phối tiên nghiệm hay đơn giản là tiên nghiệm π(θ) của θ: θ ∼π(θ) (θ ∈ Θ) (1.4)

Phân tích dữ liệu dựa trên kết quả các suy luận trước đó giúp tối ưu hóa quá trình tính toán tích phân cho phân phối hậu nghiệm, hay còn gọi là hậu nghiệm Việc rút gọn này dựa trên công thức π(θ|X) = π(θ)L(θ|X), cho phép xác định phân phối hậu nghiệm một cách hiệu quả hơn Điều này góp phần nâng cao độ chính xác và tiết kiệm thời gian trong các phân tích thống kê và lĩnh vực ứng dụng liên quan.

L(θ|X) ∝ f (X |θ) trong đó δ được gọi là thống kê hợp lý của δ với X đã cho.

Các tiên nghiệm Jeffreys

Việc xác định rõ mô hình Bayes giúp tổng hợp thông tin theo quan điểm xác suất chính xác và là bước tất yếu trong phân tích dữ liệu Khi xét mô hình xác suất đối với dữ liệu quan sát X, cần xác định rõ phân phối tiên nghiệm cho tham số chưa biết θ, đặc biệt khi thông tin này có sẵn hoặc dễ biết chính xác Trong những trường hợp không có sẵn hoặc khó xác định phân phối tiên nghiệm chính xác, phương pháp Jeffreys được sử dụng với giả thiết tiên nghiệm có dạng πJ(θ) ∝ |I(θ)|^{1/2}, trong đó I(θ) là lượng thông tin Fisher.

Vớ dụ 1.2 Giả sử rằng ta xột một mẫu được lấy từ phõn phối N (à,1) Thông tin Fisher thu được như sau:

2(x−à) 2 là hàm mật độ của N(à,1) Điều này dẫn đến tiền nghiệm Jeffreys của θ là π J (θ) ∝ 1 (−∞ < à < +∞) (1.7)

Ta thu được phân phối hậu nghiệm tương ứng của θ cho bởi X như sau: π J (à|X) = N(X,1) (1.8)

Tích phân Monte Carlo

Bài toán

Cho ν là độ đo xác suất trên σ - trường Borel X với không gian mẫu

X ⊆ R d , trong đóR d là không gian Euclide d-chiều Một khó khăn thường gặp trong bài toán là ước tính tích phân dạng:

Trong đó h(x) là hàm đo được Giả sử rằng ν có hàm mật độ xác suất f(x) thì (1.9) có thể được viết thành:

Ví dụ 1.3 Để ước lượng xác suất P r(X ∈ S) với S ∈ X, h(x) hàm chỉ tiêu là: h(x) =I x∈S với h(x) 1,nếu x∈ S

Phân phối thành phần của biến Y có thể được tính từ phân phối đồng thời của biến X và Y, cụ thể là $f_Y(y) = \int f_{X,Y}(x, y) dx$ Khi thay vào công thức, ta có thể tính kỳ vọng $E[f_X(x) f_{Y|X}(y|x)]$, trong đó $f_X(x)$ là hàm mật độ của thành phần X, và $f_{Y|X}(y|x)$ là hàm mật độ có điều kiện của Y khi X đã biết Việc này giúp xác định rõ cách phân phối của Y dựa trên phân phối đồng thời của X và Y, là bước quan trọng trong phân tích thống kê và mô hình hóa dữ liệu.

Xấp xỉ Monte Carlo

Ta kí hiệu X 1 , , X n là một mẫu kích thước n lấy từ hàm mật độ xác suất f(x) trong (1.10) Khi đó trung bình mẫu của h(X) là: h n = 1 n n

Trong bài viết này, chúng ta xem xét cách tính xấp xỉ tổng các hàm số h(X_i) theo phương pháp số Cụ thể, tổng này có thể được ước lượng bằng cách sử dụng xấp xỉ (1.10), với độ chính xác ngày càng tăng nhờ vào tính hội tụ của hn theo luật số lớn Khi biến ngẫu nhiên h(X) có phương sai hữu hạn, sai số của xấp xỉ này có thể được mô tả chính xác bởi định lý giới hạn trung tâm, cho thấy rằng hiệu số hn - E[f[h(X)]] theo phân phối chuẩn tiêu chuẩn sẽ tiệm cận với phân phối chuẩn với trung bình bằng 0 và phương sai bằng V ar(h(X)).

Tương tự V ar(h(X)) có thể được xấp xỉ bằng phương sai mẫu:

Phương pháp xấp xỉ tích phân qua các mẫu mô phỏng được biết đến như là phương pháp Monte Carlo

Monte Carlo thông qua lấy mẫu theo trọng số

Khi gặp khó khăn trong việc trực tiếp sinh mẫu từ hàm f(x), chúng ta có thể áp dụng phương pháp lấy mẫu theo trọng số Phương pháp này dựa trên phép đồng nhất, giúp nâng cao hiệu quả và độ chính xác trong quá trình lấy mẫu Sử dụng kỹ thuật này là giải pháp tối ưu khi các phương pháp truyền thống gặp hạn chế, đảm bảo kết quả phù hợp với yêu cầu phân phối của hàm f(x).

Trong đó, g(x) là hàm mật độ xác suất trên không gian X và luôn dương với mọi x mà f(x) > 0, đồng thời công thức này cho thấy các mẫu có hàm mật độ khác nhau từ f(x) có thể được xấp xỉ lẫn nhau theo công thức (1.10) Lý thuyết Monte Carlo phù hợp áp dụng trong trường hợp này nhờ khả năng tận dụng các mẫu ngẫu nhiên từ các hàm mật độ khác nhau để đưa ra các xấp xỉ chính xác cho phân phối xác suất của f(x).

= E g h eh(X)i trong đó eh(x) =h(x) f (x) g(x)g(x) Ước lượng của Ef [h(X)] bây giờ trở thành: h = 1 m m

Phương pháp lấy mẫu theo trọng số dựa trên việc lựa chọn hàm g(x) phù hợp để vừa đơn giản trong quá trình sinh mẫu Monte Carlo, vừa đảm bảo độ chính xác trong việc ước lượng E[f(h(X))] Khi so sánh với phương pháp trước đó, mỗi mẫu x_i được gán trọng số w_i = f(g(x_i)), giúp kiểm soát các sai số ước lượng Chìa khóa thành công của phương pháp này là chọn g(x) sao cho cực tiểu hóa phương sai của ước lượng, dẫn đến việc hàm g(x) tối ưu là g∗(x) = |h(x)|f(x).

Phương pháp sinh biến ngẫu nhiên

Phương pháp biến đổi

Phương pháp biến đổi dựa trên phép biến đổi của các biến ngẫu nhiên, như thuật toán 1.1 và 1.2, là những kỹ thuật phổ biến trong thống kê và học máy Tuy nhiên, chúng thường không hiệu quả ngoại trừ trong một số trường hợp đặc biệt như phân phối mũ và phân phối Bernoulli Các phương pháp biến đổi tối ưu hơn thường được xây dựng dựa trên phân phối mục tiêu f(x) để cải thiện hiệu quả và độ chính xác Dưới đây là một số ví dụ về các phương pháp biến đổi thường được sử dụng trong thực hành để nâng cao khả năng mô phỏng và phân tích dữ liệu.

Công thức Phép biến đổi Phân phối

Phương pháp chấp nhận - bác bỏ

Phương pháp chấp nhận - bác bỏ (AR) là kỹ thuật hữu ích để sinh số ngẫu nhiên khi phương pháp biến đổi trực tiếp không khả thi hoặc tốn kém Phương pháp này dựa trên ý tưởng hình học để chọn mẫu một cách hiệu quả, giúp tiết kiệm thời gian và tăng độ chính xác trong quá trình tạo các số ngẫu nhiên phù hợp với phân phối mong muốn.

Xét mẫu có phân phối d - chiều với không gian mẫu X ⊆ R d Theo định nghĩa về hàm mật độ, miền phía dưới đường cong/mặt phẳng của hàm mật độ

C f = {(x, u) : 0≤ u ≤ f (x)} ⊂ R d+1 (1.13) bằng một đơn vị thể tích.Do đó nếu (X,U) là đều trong miền C f thì

X ∼ f (x) Chú ý rằng X ∼ f (x) vẫn đúng khi f (x) trong (1.13) được làm bội bởi một hằng số dương tùy ý, nghĩa là:

Ch = {(x, y) : 0 ≤ y ≤ h(x)} là tập con trong R^{d+1}, trong đó chức năng h(x) tỷ lệ thuận với f(x) Sự thay đổi tỷ lệ của h(x) trên tập U sẽ không ảnh hưởng đến phân phối biên của biến X, cho phép sinh mẫu X từ các điểm mô phỏng phân phối đều trên Cf hoặc Ch Khi gặp khó khăn trong việc lấy mẫu trực tiếp từ C h, ta có thể lấy mẫu gián tiếp qua C h bằng cách sử dụng các phương pháp phù hợp để đảm bảo phân phối đúng đắn.

(i) Sinh ra những điểm có tính đều trên một miền mở rộng và dễ dàng để lấy mẫu D ⊇ C h và

Miền mở rộng D có thể được xây dựng bằng một phân phối có khả năng lấy mẫu đơn giản, với hàm mật độ g(x) thỏa mãn điều kiện f(x)g(x) bị chặn trên bởi một hằng số hữu hạn M Do đó, miền C hương phù hợp là miền đóng trong miền đó, đảm bảo tính ổn định trong quá trình mô hình hóa và phân tích dữ liệu.

Cg = {(x, u) : 0≤ u ≤ g(x)} ⊂ R d+1 (1.15) với h(x) ∝ f (x) Phân phối g(x) được gọi là phân phối công cụ và f (x) là phân phối mục tiêu.

Tóm lại, thuật toán AR dùng để sinh các số ngẫu nhiên từf (x) bằng cách sử dụng phân phối công cụ g(x), trong đó : sup x h(x) g(x) ≤ M < ∞

Thuật toán 1.3(Chấp nhận -bác bỏ) Lặp lại 2 bước sau cho đến khi một giá trị được trả về trong bước 2:

1, Sinh ra X từ g(x) và U từ U nif(0,1).

2, NếuU ≤ M g(X f (X) ) , trả lại giá trị X (như là độ lệch ngẫu nhiên từ f (x)).

Trong trường hợp hàm số h(x) khó ước lượng, ta sử dụng hàm số kẹp s(x)

0 ≤ s(x) ≤ h(x) có tính toán đơn giản hơn để rút gọn việc tính toán h(x).

Thuật toán 1.4 (Chấp nhận - bác bỏ với hàm số kẹp).

Lặp lại hai bước sau đây cho đến khi một giá trị xuất ra trong bước 2:

1, Sinh ra X từ g(x) và U từ U nif (0,1).

2, Nếu U ≤ M g(X s(X ) ) hoặc M g(X S(X ) ) < U ≤ M g(X) h(X ) trả lại giá trị X (như là một độ lệch ngẫu nhiên từ f (x)).

Do đó trong trường hợp này U ≤ M g(X) s(X ) , thuật toán không ước lượng h(x)

Phương pháp tỷ số đều

Phương pháp tỷ số đều là phương pháp phổ biến để sinh các biến ngẫu nhiên theo nhiều phân phối thông dụng như phân phối Gamma, phân phối chuẩn, và phân phối student-t Ý tưởng chính của phương pháp là tìm ra cặp phép biến đổi khả vi U = u(Y) và X = x(Z, Y) sao cho U tăng thực sự, nhằm đảm bảo các biến ngẫu nhiên này thỏa mãn điều kiện (1.14) Nhờ phép biến đổi này, cùng với hằng số Jacobi, ta có thể xác định phân phối của (Y, Z) trên tập ảnh tương ứng của C h, giúp sinh các biến ngẫu nhiên theo phân phối mong muốn một cách hiệu quả.

(1.16) trong đó u −1 (.) là hàm số ngược của u(.) Điều này dẫn tới thuật toán bác bỏ tổng quát như sau:

Lặp lại hai bước sau cho đến khi giá trị trả về trong bước 2:

1, Sinh (Y, Z) có độ lệch đều trên miền D ⊇C (Y,Z) h

2, Nếu (Y, Z) ∈ C (Y,Z) h , trả về giá trị X = x(Y, Z) là độ lệch mong muốn.

Thuật toán này có tỉ số chấp nhận r R

∂z là hệ số Jacobi của các phép biến đổi.

Xích Markov

Các định nghĩa và kí hiệu

Xích là một dạng chuỗi xác suất, trong đó mỗi trạng thái của quá trình phụ thuộc vào trạng thái trước đó, được định nghĩa rõ ràng dựa trên phân phối dừng π(.) Xác suất để chuỗi xuất hiện thường xuyên vô hạn, ký hiệu {A n i.o}, là 1, nghi thức rằng sự kiện này xảy ra vô hạn với xác suất nhất định Một xích được gọi là hồi quy nếu, với mọi tập B có xác suất π(B) > 0, thì phản xạ của nó đảm bảo sự xuất hiện của các trạng thái trong B xảy ra vô hạn lần, phản ánh khả năng chuỗi quay trở lại các trạng thái này liên tục trong thời gian dài.

Pr (X n ∈ Bi.o.|X 0 = x) > 0 với mọi x và P r(Xn ∈ Bi.o.|X 0 = x) = 1 với hầu hết π(x)

Hồi quy Harris (Harris recurrence) diễn ra khi xác suất P r(X n ∈ Bi.o.|X 0 = x) bằng 1 đối với hầu hết các phần tử theo phân phối π(x) Để phân loại các dạng ergodic khác nhau, ta áp dụng khái niệm tổng biến thiên khoảng cách giữa hai độ đo trên không gian X và khái niệm thời điểm chạm.

Tổng biến thiên khoảng cách giữa hai độ đo trên (X,X) xác định bằng tổng biến thiên chuẩn của độ đo λ trên (X,X) kλk= sup

Thời điểm chạm của tập con B ∈ X là biến ngẫu nhiên:

Trong đó cận dưới đúng của tập rỗng tiến tới ∞ Định nghĩa 1.2 Các dạng ergodic khác nhau được cho như sau:

(a) Một xích Markov được gọi là ergodic nếu nó là Harris dương hồi quy và không tuần hoàn.

(b) Cho H B là thời điểm chạm của tập B Một xích ergodic với phân phối dừng π(x) được gọi là ergodic cấp 2 nếu:

Ex H B 2 π(dx) < ∞ với mọi H ∈ X thỏa mãn π(H) > 0

Một xích ergodic với phân phối dừng π(x) được gọi là ergodic hình học khi tồn tại một hàm số không âm M thỏa mãn kỳ vọng hữu hạn E(|M(X)|) < ∞ cùng với một hằng số dương r < 1, sao cho ∥ P^n(x, ·) – π ∥ ≤ M(x) r^n cho mọi x.

(d) Xích trong (c) được gọi là ergodic đều nếu tồn tại một hằng số M và một hằng số dương r < 1 sao cho kP n (x, )−πk ≤ M r n

Sự hội tụ của phân phối

Tổng biến thiên khoảng cách giữa hai độ đo trên (X, X) được sử dụng để mô tả sự hội tụ của xích Markov Theo Định lý 1 của Tierney (1994), nếu P(x, dy) có phân phối đích π(x) là bất khả quy và dừng, thì P(x, dy) là hồi quy dương và π(dx) chính là phân phối dừng duy nhất của quá trình.

Trong bài viết này, chúng tôi nhấn mạnh rằng nếu chu trình P(x, dy) không tuần hoàn thì phần lớn các phân phối π(x) sẽ thỏa mãn điều kiện kP^n(x, )−πk → 0 khi k tổng biến thiên khoảng cách ngày càng tăng Đồng thời, nếu P(x, dy) là chu trình Harris hồi quy, thì quá trình hội tụ này diễn ra với mọi x, đảm bảo tính ổn định và khả năng dự đoán của hệ thống.Markdown

Giới hạn của giá trị trung bình

Định lý 1.2 khẳng định rằng nếu X_n là chuỗi ergodic với phân phối cân bằng f(x) và hàm h(x) có giá trị thực cùng với kỳ vọng E_f(|h(X)|) hữu hạn, thì theo luật lớn, trung bình mẫu của h(X) sẽ hội tụ almost sure về kỳ vọng E_f(h(X)) Điều này cho thấy rằng trong các quá trình ergodic, trung bình của hàm h(x) tính theo mẫu sẽ hội tụ về giá trị kỳ vọng của hàm đó theo phân phối cân bằng, đảm bảo tính ổn định và dự đoán được của quá trình.

Định lý 1.3 xác nhận rằng, nếu Xₙ là một chuỗi ergodic bậc 2 có phân phối cân bằng f(x), và hàm h(x) là hàm thực bị chặn, thì tồn tại một tham số thực σ_h Khi đó, phân phối của √n (hₙ - E[f(h(X))]) hội tụ yếu tới phân phối chuẩn với kỳ vọng bằng 0 và phương sai là σ_h², đảm bảo tính ổn định và tính chất chuẩn hóa của phương pháp phân tích trong xác suất.

Giả thiết về tính bị chặn của hàm h(x) có thể được bỏ qua nếu xích là ergodic đều và kỳ vọng của h(x) theo phân phối cân bằng f(x) là hữu hạn, tức là E_{f} [h^2(X)] < ∞ Theo định lý 1.4, trong trường hợp Xn là chuỗi ergodic đều với phân phối cân bằng f(x) và h(x) là hàm số thực có tích phân bình phương hữu hạn, thì tồn tại một số thực σ_h sao cho phân phối của √n (h̵_n - E_{f} [h(X)]) hội tụ yếu tới phân phối chuẩn với kỳ vọng 0 và phương sai σ_h^2, mọi phân phối ban đầu đều thoả mãn.

Trong thực tế, các phương pháp lấy mẫu trực tiếp để sinh các biến ngẫu nhiên nhiều chiều thường không khả thi đối với suy luận Bayesian, trừ khi các mô phỏng rất đơn giản Phương pháp chấp nhận-bác bỏ và các biến thể của nó, như phương pháp tỷ số chấp nhận, thường gặp kết quả bằng 0 trong các bài toán có độ chiều cao Để khắc phục khó khăn này, người ta thường sử dụng phương pháp lấy mẫu Gibbs, còn gọi là mẫu Gibbs.

Mẫu Gibbs

Để sinh các số ngẫu nhiên theo hàm mật độ mục tiêu $f(x)$, ta tiến hành phân hoạch vector $d$-chiều $x$ thành $K$ khối, với $x = (x_1, , x_K)$, trong đó $K \leq d$ và tổng số chiều của các khối là $d$ Việc phân khối này giúp đơn giản hóa quá trình sinh mẫu bằng cách tách biệt các phần của vectơ theo cấu trúc chiều dữ liệu, từ đó nâng cao hiệu quả của các thuật toán sinh mẫu theo hàm mật độ mục tiêu.

Trong lý thuyết xác suất, kí hiệu fₖ(xₖ | x₁, , xₖ₋₁, xₖ₊₁, , x_K) đại diện cho tập các phân phối có điều kiện của biến xₖ dựa trên các biến khác, với k = 1, , K Dưới các điều kiện không chặt, tập các phân phối có điều kiện này xác định rõ ràng phân phối mục tiêu f(x) Theo định lý Hammersley-Clifford, nếu phân phối đồng thời f(x) > 0 với mọi x trong không gian X, thì phân phối này được xác định duy nhất bởi các phân phối điều kiện này Chính xác hơn, phân phối đồng thời f(x) có thể hoàn toàn xác định qua các phân phối có điều kiện đã cho.

Y k=1 f j k x j k x j 1 , , x j k−1 , y j k+1 , , y j K f j k y j k x j 1 , , x j k−1 , y j k+1 , , y j K (x ∈ X) (2.2) với mọi hoán vị j trên {1, , n} và ∀y ∈ X.

Mẫu Gibbs là một thuật toán lấy mẫu lặp, bắt đầu với giá trị ban đầu x(0) trong không gian X sao cho f x (0) > 0 Mỗi bước lặp của mẫu Gibbs thực hiện qua các phân phối có điều kiện (2.1) để sinh ra mẫu ngẫu nhiên từ phân phối f k (x k |x 1, , x k−1, x k+1, , x K), bằng cách cập nhật các giá trị của x1 đến xK dựa trên các giá trị đã được sinh ra trong các bước trước Định nghĩa 2.1 xác định mẫu Gibbs là quá trình lấy mẫu bắt đầu từ một vectơ ban đầu x(0) phù hợp và lặp lại quá trình này theo từng bước t=1,2, nhằm hội tụ phân phối mục tiêu.

Khi đó, phân phối của x (t) = x (t) 1 , , x (t) K 0 , kí hiệu là f (t) (x) sẽ hội tụ tới f(x)

Phân phối chuẩn nhiều chiều, còn gọi là phân phối Gauss đa biến, là một trong những phân phối xác suất phổ biến trong thống kê, được ký hiệu là Np(μ, P) Phân phối này mô tả xác suất của các biến ngẫu nhiên liên kết trong không gian mẫu Rp, với các tham số bao gồm vector trung bình μ ∈ Rp và ma trận covariance P kích thước p×p, xác định mức độ biến thiên và tương quan giữa các biến Các đặc tính của phân phối chuẩn nhiều chiều giúp phân tích dữ liệu phức tạp và mô hình hóa các mối quan hệ đa biến trong nghiên cứu khoa học và kỹ thuật.

∈ M p×p + trong đó [M p×p + là ma trận xác định dương cỡ p×p Hàm mật độ xỏc suất N p (à,P): f à, P (x) = 1

√2π|P|e − 1 2 (x−à) 0 P −1 (x−à) (x ∈ R p ) Để minh hoạ cho mẫu Gibbs, ta dùng phân phối chuẩn hai chiều p(x) =N à,X;à = [à 1 , à 2 ] = [0,0] ;

Here is the MATLAB code example for generating correlated random samples The seed is set with `rand('seed', 12345)` to ensure reproducibility A total of 5,000 samples are generated, with the mean vector initialized at [0, 0] Both variables have a correlation coefficient of 0.8, represented by `rho` The code defines the sampling bounds from -3 to 3 for both variables Initial values for the sample matrix are randomly drawn within these bounds A while loop iterates through the sampling process until reaching 5,000 samples, ensuring proper generation of correlated data points This MATLAB script effectively demonstrates how to simulate correlated bivariate random variables with specified parameters.

T = [t-1,t]; for iD = 1:2 nIx = dims =iD; muCond = mu(iD) + rho(iD)*(x(T(iD),nIx)-mu(nIx)); varCond = sqrt(1−rho(iD) 2 ); x(t,iD) = normrnd(muCond,varCond); end end

Hình 2.1: Mẫu Gibbs đối với phân phối chuẩn hai chiều

Thuật toán mở rộng dữ liệu

Thuật toán mở rộng dữ liệu DA là một trường hợp đặc biệt của mẫu Gibbs, cụ thể là mẫu Gibbs hai bước, giúp cải thiện quá trình xử lý dữ liệu thiếu hoặc không hoàn chỉnh Với ít nhất ba điểm chú ý quan trọng, DA giúp tối ưu hóa khả năng ước lượng và nâng cao độ chính xác của mô hình thống kê Việc ứng dụng DA trong phân tích dữ liệu cung cấp các lợi ích rõ ràng, đặc biệt trong các tình huống dữ liệu không đầy đủ hoặc có nhiễu Đây là phương pháp mạnh mẽ được sử dụng rộng rãi trong nghiên cứu thống kê và học máy để tăng cường hiệu suất của các thuật toán ước lượng.

Thứ nhất nó có ứng dụng trong phân tích Bayes về các dữ liệu không đầy đủ.

Thứ hai DA là ví dụ đơn giản nhất của mô hình Gibbs, giúp các nhà nghiên cứu dễ dàng phân tích và hiểu rõ các đặc tính lý thuyết của mẫu Gibbs Mẫu Gibbs thứ hai này được nghiên cứu rộng rãi vì tính đơn giản và khả năng thể hiện các đặc điểm cơ bản của phân phối Gibbs trong lý thuyết xác suất và thống kê Việc nắm vững mẫu Gibbs thứ hai đóng vai trò quan trọng trong việc hiểu các mô hình phức tạp hơn và ứng dụng chúng trong các lĩnh vực nghiên cứu khác nhau.

Thứ ba, ý tưởng về việc nâng cao hiệu quả của thuật toán DA có thể được áp dụng rộng rãi cho các mẫu Gibbs tổng quát hơn, chẳng hạn như thuật toán Metropolis-Hastings, nhằm tối ưu hóa quá trình suy luận xác suất trong các mô hình phức tạp.

Thuật toán DA trong phân tích Bayes được sử dụng để xử lý dữ liệu không đầy đủ, trong đó X_obs là dữ liệu quan sát và X_mis là dữ liệu thiếu, kết hợp thành dữ liệu đầy đủ X_com = (X_obs, X_mis) Giả định rằng mẫu dữ liệu đầy đủ có mật độ g(X_obs, X_mis | θ), với θ là tham số trong xác suất Θ ⊆ R^d Mục tiêu là thực hiện suy luận Bayes để ước lượng phân phối hậu nghiệm của tham số θ dựa trên phân phối tiên nghiệm p(θ) Quá trình này giúp khai thác tối đa thông tin từ dữ liệu quan sát và xử lý hiệu quả các dữ liệu thiếu hụt.

Trong suy luận Bayes về tham số θ, phương pháp MCMC yêu cầu lấy mẫu từ phân phối hậu nghiệm chính xác hoặc các hậu nghiệm của dữ liệu quan sát, như p(θ|X_obs) ∝ f(X_obs|θ)p(θ) Ngoài ra, tổng quát hơn, phân phối đồng thời của θ và X_mis được mô tả bởi p(θ, X_mis|X_obs) ∝ g(X_obs, X_mis|θ)p(θ) Đặt h(X_mis|θ, X_obs) là phân phối có điều kiện của X_mis với θ và X_obs cho trước, giả sử rằng cả h(X_mis|θ, X_obs) và p(θ|X_obs, X_mis) đều dễ sinh mẫu Thuật toán Gibbs hai bước dựa trên hai điều kiện này, còn gọi là thuật toán DA, giúp thực hiện lấy mẫu hiệu quả trong suy luận Bayesian.

Thuật toán DA: mẫu Gibbs hai bước Lấy θ (0) ∈ Θ và lặp lại với t = 1,2,

Bước I Chỉ ra X mis (t) ∼ f mis X mis θ (t−1) , X obs Bước P Chỉ ra θ (t) ∼ p θ

Giống như mẫu Gibbs hai bước, DA tạo nên sự đan xen giữa các xích Markov θ (t) , t = 1,2 và n

Trong các trường hợp toán học đơn giản của mẫu Gibbs, X mis(t) với t=1,2, ,o cho thấy DA là công cụ hữu ích để xử lý các bài toán thiếu dữ liệu Điều này giúp giải thích tại sao phương pháp DA được ứng dụng rộng rãi trong các bài toán cần khắc phục thiếu hụt thông tin, nâng cao độ chính xác và hiệu quả của phân tích dữ liệu.

Ví dụ 2.2 minh họa cách phân phối chuẩn nhiều chiều trong trường hợp dữ liệu không đầy đủ, khi có một mẫu cỡ n từ phân phối p- chiều Np(μ, P), trong đó μ∈R^p và P là ma trận covariance xác định dương cỡ p×p Mỗi thành phần của dữ liệu, Y_i, có thể là quan sát đầy đủ hoặc thiếu, với Y_obs(i) là phần quan sát và Y_mis(i) là phần khuyết của Y_i Phân phối có điều kiện của phần khuyết Y_mis(i) dựa trên phần quan sát Y_obs(i) và phân phối gốc (μ, P) được xác định rõ ràng, giúp xử lý dữ liệu thiếu hiệu quả trong phân tích thống kê. -**Sponsor**Bạn là một content creator và cần giúp đỡ viết lại bài viết sao cho mạch lạc và chuẩn SEO? Với [Article Generation](https://pollinations.ai/redirect-nexad/huDPW0g5?user_id=983577), bạn có thể tạo ra những bài viết 2,000 từ được tối ưu hóa SEO ngay lập tức, giúp bạn tiết kiệm hơn $2,500 mỗi tháng so với việc thuê người viết! Hãy tưởng tượng bạn có cả một đội ngũ sáng tạo nội dung mà không cần lo lắng về quản lý Điều này đặc biệt hữu ích khi bạn muốn đảm bảo các câu quan trọng thể hiện ý nghĩa của đoạn văn được trình bày rõ ràng và tuân thủ các quy tắc SEO.

Trong phân tích Bayes, khi sử dụng phân phối tiên nghiệm p à,X ∝ X −(q+1)/2, với q là số nguyên dương đã biết, ta có thể xác định được phân phối tiên nghiệm Jeffreys cho phân phối P khi q bằng giá trị phù hợp Phân phối này thể hiện cách tiếp cận khách quan và không thiên vị trong quá trình phân tích thống kê, giúp nâng cao độ chính xác của các ước lượng trong mô hìnhBayes Việc lựa chọn phân phối tiên nghiệm phù hợp, như phân phối Jeffrey, đóng vai trò quan trọng trong việc thúc đẩy hiệu quả và độ tin cậy của các phân tích dữ liệu Bayesian.

Y i −Y¯ Y i −Y¯ 0 Phân phối hậu nghiệm dữ liệu đầy đủ

Do đó, thuật toán DA có bước I và bước P như sau:

Bước I Với i = 1, , n, sinh Y i,mis từ (2.6)

Bước P Đầu tiờn ta sinh à từ (2.7) với Y1, , Yn đó biết, sau đú sinh à từ

Thuật toán lấy mẫu Gibbs không phù hợp để áp dụng trong các bài toán lựa chọn mô hình Bayes có không gian tham số nhiều chiều từ các phân phối phức tạp Vì vậy, trong những trường hợp này, ta sử dụng thuật toán Metropolis-Hastings (MH), một phương pháp mở rộng của Gibbs, giúp lấy mẫu hiệu quả từ các phân phối có điều kiện không chuẩn hoặc không khả thi để xử lý bằng Gibbs.

Thuật toán Metropolis – Hastings

Khái niệm

Trong không gian mẫu X với σ trường B X, ta xác định phân phối mục tiêu π(dx) dựa trên hàm mật độ xác suất f(x) Ý tưởng chính để xây dựng chuỗi Markov là tạo ra nhân dịch chuyển P(x, dy) sao cho tồn tại phân phối dừng π(dx), đảm bảo chuỗi Markov hội tụ về phân phối mục tiêu này.

Phép nhân dịch chuyển P(x, dy) trong công thức (3.1) có tính bất định không ảnh hưởng lớn đến việc xây dựng P(x, dy) cùng với phân phối π(dx) đã cho Do đó, phương pháp thông thường để sinh các nhân dịch chuyển trong thực tế là áp dụng điều kiện khả nghịch, giúp đảm bảo tính khả thi và ổn định của quá trình xây dựng.

Một xích Markov với xác suất nhân dịch chuyển P (x, dy) và phân phối dừng π(dx) được gọi là khả nghịch khi nó thỏa mãn điều kiện cân bằng chi tiết Điều này có nghĩa là, với phân phối dừng π, tỷ lệ chuyển từ trạng thái x sang trạng thái y bằng tỷ lệ chuyển ngược lại, đảm bảo quá trình đạt trạng thái cân bằng một cách tự nhiên và chính xác Khả năng khả nghịch của xích Markov giúp xác định tính chất cân bằng và hiệu quả trong việc mô hình hóa các quá trình ngẫu nhiên, đồng thời tăng cường khả năng phân tích và dự đoán các trạng thái trong hệ thống.

Hàm mật độ của phân phối xác suất P(x, dy) với x đã cho có điều kiện cân bằng chi tiết được biểu diễn bằng công thức f(x)p(x, y) = f(y)p(y, x) Trong đó, đặt x = X(t) là biểu diễn của xích Markov tại thời điểm t Để xây dựng nhân dịch chuyển thỏa mãn điều kiện cân bằng này, Metropolis (1953) đề xuất một phương pháp tính gần đúng gồm hai bước nhằm duy trì cân bằng tỉ lệ trong quá trình mô phỏng.

1, Chỉ rõ một phân phối có điều kiện đối xứng với hàm mật độ xác suất q(y|x) , nghĩa là q(y|x) = q(x|y)

2, Thông qua phương pháp chấp nhận – bác bỏ sinh y từ q(y|x) sao cho kết quả của xích Markov là khả nghịch.

Chính xác hơn, thuật toán lấy mẫu Metropolis (hay mẫu Metropolis) có thể tóm tắt như sau: Định nghĩa 3.1 Mẫu Metropolis

2, Tính toán tỷ số chấp nhận α(x t , y) = min

1, f (y) f (xt) Đặt x t+1 = y với xác suất α(x t , y) và x t+1 = x t với xác suất 1−α(x t , y)

Hasting(1970) đã tổng quát thuật toán Metropolis bằng cách chấp nhận các phân phối đề nghị là không đối xứng và đưa ra thuật toán Metropolis

- Hasting. Định nghĩa 3.2 Metropolis – Hastings (MH)

2, Tính toán tỷ số chấp nhận α(x t , y) = min

1, f (y)q(x t |y) f (xt)q(y|xt) Đặt xt+1 = y với xác suất α(x t , y) và x t+1 = x t với xác suất 1−α(x t , y)

Hiệu quả của thuật toán MH phụ thuộc vào phân phối đề nghị của nó, do đó việc lựa chọn phân phối đề nghị phù hợp là vô cùng quan trọng để tăng hiệu suất và độ chính xác của quá trình sampling Các phân phối đề nghị phổ biến nhất bao gồm phân phối đề nghị độc lập và phân phối đề nghị bước ngẫu nhiên, đều đóng vai trò quan trọng trong tối ưu hóa kết quả của thuật toán.

Mẫu độc lập

Trong các mẫu độc lập, ta có q(y|x) = q(y), nghĩa là trạng thái đề cử y được sinh ra độc lập với trạng thái hiện tại của xích Markov Tỉ số Metropolis-Hastings (MH) trở thành tỷ lệ trọng số r(x, y) = [f(y)/q(y)] / [f(x)/q(x)], cho thấy quá trình chấp nhận đề xuất dựa trên tỷ lệ này Khi đề xuất mẫu độc lập, thuật toán có thể xem như là một dạng tổng quát của thuật toán chấp nhận – bác bỏ Đặc biệt, xích độc lập sẽ không tạo thành chu trình tái lặp hay chu trình cuối, nếu và chỉ nếu tập trạng thái {x : f(x) > 0} là con của {x : g(x) > 0}, đảm bảo tính khả quy và tính không tuần hoàn của chuỗi Markov.

Q(x) và f(x) đều thuộc cùng một miền, nhưng quãng lớn hơn của q(x) thể hiện rằng q(x) là miền lớn hơn f(x), được chứng minh dựa trên kết quả của định lý Mengerson và Tweedie (1996) hoặc Robert và Cassella (2004) Theo Định lý 3.1, xích độc lập là ergodic đều khi tồn tại một hằng số M sao cho f(x) ≤ M g(x) với mọi x thuộc tập {x : f(x) > 0}.

Xích bước ngẫu nhiên

Xích bước ngẫu nhiên được tạo nên bằng cách lấy phân phối có điều kiện có dạng: q(x, y) =q(y −x)

Bước nhảy đề xuất có hướng và khoảng cách xuất phát từ trạng thái hiện tại x_t không phụ thuộc vào giá trị của x_t Các phân phối hình cầu đơn giản như phân phối chuẩn tắc, phân phối Student, phân phối đều với hình cầu có tâm tại O, cũng như phân phối elliptical thường là những lựa chọn phổ biến nhất cho q(.), đảm bảo tính ngẫu nhiên và hiệu quả trong quá trình cập nhật trạng thái.

Tham số tỷ lệ cho phân phối có điều kiện q(.) đóng vai trò quan trọng trong quá trình tối ưu hóa, ảnh hưởng đến bước duy trì và chấp nhận trong thuật toán Các tham số tỷ lệ lớn giúp thực hiện các bước lớn hơn, mang lại lợi ích trong việc tìm kiếm giải pháp nhanh hơn, nhưng đồng thời có thể làm giảm tỷ lệ chấp nhận, gây ảnh hưởng đến khả năng hội tụ của thuật toán Do đó, việc chọn tỷ lệ thích hợp thường nằm trong khoảng từ 20% đến 40% để cân bằng giữa tốc độ tiến hóa và tỷ lệ chấp nhận, đảm bảo hiệu quả tối ưu.

Thuật toán Metropolis- Hasting cho các phân phối nhiều chiều

Cập nhật từng khối

Ta sử dụng phân phối đề nghị có cùng số chiều với phân phối mục tiêu.

Ví dụ, để lấy mẫu từ phân phối xác suất gồm N biến, ta xây dựng phân phối đề nghị N chiều và chấp nhận hoặc bác bỏ nó như một khối, giúp tối ưu quá trình sampling Trong quá trình này, ta sử dụng vector x = (x₁, x₂, , x_N) để mô tả một biến ngẫu nhiên có N thành phần, trong đó x(t) thể hiện vị trí thứ t của biến Các bước thực hiện có thể được tóm tắt như sau, đảm bảo tính chính xác và tối ưu hóa theo tiêu chuẩn SEO.

2 Sinh ra một giá trị ban đầu u = (u 1 , u 2 , , u N ) đặt x (t) = u

3 Lặp: t= t+ 1 Sinh ra x ∗ từ q x x (t−1) Xác suất chấp nhận α = min

Sinh ra u từ phân phối đều U(0,1)

Nếu u ≤α, chấp nhận phân phối đề nghị và đặt x (t) = x ∗ , ngược lại đặt x (t) = x (t−1)

Ví dụ 3.1 Giả sử ta muốn lấy mẫu từ phân phối mũ hai chiều: p(θ1, θ2) = exp (−(λ1 +λ)θ1 −(λ2 +λ)θ2 −λmax (θ1, θ2))

Ta giới hạn khoảng θ 1 và θ 2 là [0,8] và đặt λ 1 = 0,5;λ 2 = 0,1;λ +

Sau đây là phần Matlab code cho ví dụ trên:

This article discusses a stochastic simulation process where key parameters are set with initial conditions and bounds, specifically employing uniform distributions within specified minimum and maximum values Random seed initialization ensures reproducibility of results, and the simulation iteratively generates new candidate points within the defined parameter space Acceptance of new points is based on a probability ratio derived from a bivariate exponential distribution, following a Metropolis-style algorithm to maintain proper sampling Over multiple iterations, the method effectively explores the parameter space, enabling robust modeling of complex distributions.

Hình 3.1: Thuật toán MH đối với cập nhật từng khối đối với phân phối mũ hai chiều

Ví dụ 3.2 Phân phối chuẩn hai chiều p(x) =N à,X;à = [à 1 , à 2 ] = [0,0] ;

Dưới đây là code Matlab cho ví dụ trên rand(’seed’ ,12345);

This article describes a Markov Chain Monte Carlo (MCMC) simulation process used to generate samples from a bivariate normal distribution with specified correlation The process begins with initializing parameters, including a burn-in period of 100 iterations to ensure convergence Using the Metropolis-Hastings algorithm, the simulation proposes new samples based on a multivariate normal distribution centered at the current point, with acceptance determined by the ratio of target and proposal densities The algorithm runs for 5,000 iterations, generating a series of samples that reflect the desired bivariate distribution, with initial samples discarded to reduce bias and improve accuracy This approach effectively captures dependencies between variables and is useful for probabilistic modeling and statistical inference.

Hình ảnh minh họa bên dưới cho thấy phân phối mẫu (bên trái) và phân phối mục tiêu (bên phải) thông qua thuật toán MH cho cập nhật theo từng khối Quá trình cập nhật theo từng khối giúp mô tả chính xác cách tạo ra các mẫu phù hợp với phân phối mục tiêu Điều này chứng tỏ rằng phương pháp cập nhật theo khối của thuật toán MH hiệu quả trong việc điều chỉnh mẫu để phù hợp với phân phối mục tiêu một cách chính xác và tối ưu.

Hình 3.2: Thuật toán MH đối với cập nhật từng khối đối với phân phối chuẩn hai chiều

Cập nhật từng thành phần

Việc cập nhật từng khối gặp khó khăn khi số chiều N lớn, gây ra nhiều mẫu bị bác bỏ do việc tìm phân phối đề nghị trở nên phức tạp Để khắc phục vấn đề này, phương pháp cập nhật từng thành phần được sử dụng nhằm tối ưu hóa quá trình cập nhật và giảm tỷ lệ mẫu bị loại bỏ Các bước của phương pháp này giúp dễ dàng hơn trong việc xử lý dữ liệu có chiều cao, thúc đẩy hiệu quả của quá trình phân tích dữ liệu lớn trong các ứng dụng thống kê.

2 t=t+1 với mỗi chiều i = 1, , N Sinh ra x ∗ i từ q x i x (t−1) i

3 Tính toán tỷ số chấp nhận α = min

Sinh ra một giá trị ngẫu nhiên u từ U(0,1); Nếuu ≤ α, chấp nhận x ∗ i và đặt x (t) i = x ∗ i , ngược lại đặt xi (t) = xi (t−1)

Ví dụ 3.3 Phân phối chuẩn hai chiều p(x) =N à,X;à = [à 1 , à 2 ] = [0,0] ;

This MATLAB code implements a component update method using a Markov Chain Monte Carlo (MCMC) approach to sample from a bivariate normal distribution with a mean of zero and a covariance matrix with variances of 1 and covariance of 0.8 The process begins by initializing parameters such as the seed for reproducibility, the number of samples (5000), and the proposal standard deviation It starts with random initial values and iteratively generates new candidate points using a normal distribution centered at the current point The acceptance ratio is computed based on the probability density function of the target distribution, ensuring that samples are drawn according to the desired distribution The algorithm employs the Metropolis-Hastings method, accepting new candidates with a probability min(1, pratio), to ensure convergence to the target distribution Finally, it defines bin intervals for two dimensions to facilitate visualization or further statistical analysis of the sampled data.

Hình 3.3: Thuật toán MH với cập nhật từng thành phần đối với phân phối chuẩn hai chiều

Các dạng khác nhau của thuật toán Metropolis - Hastings 36

Thuật toán chạm và chạy

Thuật toán nhấn và chạy có thể thu được bằng cách tách quy trình tạo ra một bước nhảy đề xuất trong MH thành 2 quy trình con.

(i) Sinh ra một phương d từ phân phối trên bề mặt hình cầu đơn vị O (ii) Sinh ra một khoảng cách λ theo hướng d trong không gian:

Thuật toán X x,d = {λ : λ ∈ R, x+λd ∈ X} mô tả phép di chuyển trong không gian tối ưu, trong đó x = X(t) đại diện cho điểm bắt đầu và bước nhảy đề xuất là y = X(t) + λd thuộc tập X Thuật toán này được tóm tắt như sau: bắt đầu từ điểm X0 theo phân phối ban đầu f0(X) với điều kiện f0(X) > 0, rồi lặp lại quá trình với t = 1, 2, nhằm tối ưu hoá giải pháp Định nghĩa 3.3 giới thiệu Thuật toán Nhấn và Chạy (Push and Run Algorithm), một phương pháp hiệu quả trong tối ưu hoá để cải thiện tập hợp nghiệm theo hướng di chuyển xác định.

1, Sinh ra d ∼ g(d) (d∈ O) và λ ∼l(λ|d, x) trên X x,d và tính toán một xác suất chấp nhận MH α(x, y) trong đó x = x (t)

2, Sinh ra U từ U nif(0,1) và đặt:

Chen và cộng sự (2000) nhận thấy rằng lựa chọn phổ biến nhất của g(d) là phân phối đều trên không gian O Thuật toán nhấn và chạy có hiệu quả trong việc ứng dụng vào các bài toán với không gian tham số ràng buộc chặt chẽ, giúp tối ưu hóa quá trình tìm kiếm giải pháp một cách nhanh chóng và chính xác.

Thuật toán Langevin

Thuật toán Langevin là một công cụ hữu ích trong các bài toán có sẵn gradient của hàm f(x), giúp tối ưu hoá và mẫu dữ liệu hiệu quả Được bắt nguồn từ quá trình khuếch tán Lange, thuật toán này dựa trên phương trình vi phân ngẫu nhiên dX_t = dB_t + (1/2)∇f(X_t), kết hợp giữa nhiễu ngẫu nhiên và đạo hàm của hàm mục tiêu Nhờ đó, thuật toán Langevin hỗ trợ mô phỏng phân phối xác suất một cách chính xác, ứng dụng rộng rãi trong lĩnh vực học máy và thống kê.

Trong quá trình thực hiện thuật toán khuếch tán, bước rời rạc được thay thế bằng một dịch chuyển ngẫu nhiên, cụ thể là x (t+1) = x (t) + σ 2, nhằm mô phỏng chuyển động Brown và phân phối đích f Công thức 2∇logf(Xt) thể hiện hướng dẫn của gradient giúp điều chỉnh hướng đi của thuật toán, tối ưu hóa quá trình hội tụ Việc sử dụng bước dịch chuyển kiểu ngẫu nhiên này không chỉ giúp mở rộng khả năng khám phá không gian mẫu mà còn nâng cao hiệu quả trong việc tìm kiếm phân phối xác suất ổn định phù hợp với f.

Trong quá trình tối ưu hóa, phương trình 2 ∇logf x (t) + σε t mô tả bước rời rạc với εt theo phân phối chuẩn và σ đại diện cho kích thước bước Tuy nhiên, các nhà nghiên cứu đã chỉ ra rằng quá trình rời rạc này có thể ngắn và không đảm bảo phân phối dừng, gây ra nhược điểm cho thuật toán Để khắc phục, phương pháp làm chậm bước rời rạc bằng cách áp dụng quy tắc chấp nhận - bác bỏ (Metropolis-Hastings) đã được đề xuất, xem xét (3.5) như một đề nghị thông thường và vận dụng quy tắc MH để tăng tính hiệu quả của quá trình Một bước lặp của thuật toán Langevin có thể được mô tả rõ ràng theo Định nghĩa 3.4.

1 Chỉ ra một phương trình mới: x ∗ = x (t) + σ 2

2 ∇logf x (t) +σε t trong đó σ là tham số người dùng quy định.

2 Tính toán tỷ số MH: r f (x ∗ ) exp

/2σ 2 Đặt x (t+1) = x ∗ với xác suất min(1, r) và x (t+1) = x (t) với xác suất còn lại.

Roberts và Tweedie(1996) đã chứng minh rằng thuật toán Langevin không phải là ergodic hình học khi ∇logf (x) tiến tới 0 tại vô cực, nhưng vẫn là ergodic.

Thuật toán đa phép thử MH

Thuật toán Langevin sử dụng thông tin gradient của phân phối mục tiêu để tăng tốc độ hội tụ của mô phỏng MCMC, nhưng phần lớn các phân phối mục tiêu lại không có sẵn thông tin gradient Để giải quyết vấn đề này, phương pháp xấp xỉ gradient bằng mẫu MC được áp dụng Thuật toán đa phép thử Metropolis (MTM) giúp biến đổi thuật toán Metropolis bằng cách đề xuất k phân phối đề nghị độc lập, sau đó lựa chọn một mẫu phù hợp dựa trên quy tắc của thuật toán MH để nâng cao khả năng chấp nhận và hội tụ nhanh hơn.

Giả sử rằng q(y|x) > 0 nếu và chỉ nếu q(x|y) > 0 Gọi λ(x, y) là phương trình đối xứng không âm với x và y Giả sử rằng λ(x, y) > 0 khi q(y|x) > 0

Ta đặt ω(x, y) =f (x)q(y|x)λ(x, y) (3.6) Đặt x = X (t) Định nghĩa 3.5 Phép biến đổi MTM

1 Sinh ra y1, , yk độc lập cùng phân phối từ q(y|x) và ωi = ω(yi, x) với i = 1,2, , k

2 Chọn y = y j từ{y 1 , y 2 , , y k } theo xác suất tỷ lệ vớiω i , i = 1,2, , k. Sinh ra x ∗ 1 , , x ∗ k−1 từ q(.|y) Đặt x ∗ k = x và tính toán ω i ∗ = ω(x ∗ i , y) với i = 1,2, , k

3 Chấp nhận y với xác suất: am = min

(3.7) và bác bỏ nó (hoặc đặt X (t+1) = x) với xác suất 1−a m

Trong ví dụ, chọn λ(x, y) = q(y|x¹) và ω(x, y) = f(x) giúp thuật toán MTM giảm thiểu khuynh hướng sử dụng thuật toán MЦ trong lĩnh vực mô phỏng phân tử Thuật toán MTM còn có thể được kết hợp với các phương pháp khác như liên hợp gradient MЦ, thuật toán nhấn và chạy, và mẫu Gibbs griddy (Ritter và Tanner, 1992) Thêm một tập biến phụ trợ k−1 x*₁, , x*ₖ₋₁ trong bước 2 của thuật toán MTM là một kỹ thuật hữu ích, giúp quy tắc Metropolis-Hastings dễ dàng hơn và là công cụ quan trọng trong phương pháp bước nhảy ngược MCMC.

Thuật toán bước nhảy ngược MCMC cho bài toán lựa chọn mô hình Bayes

Thuật toán bước nhảy ngược MCMC

Xét các bài toán về lựa chọn mô hình Bayes Đặt {M k : k ∈ K} là một tập đếm được các mô hình phù hợp đối với các quan sát Y Mỗi mô hình

M k có không gian tham số Θ k ⊆ R d k

Trong bài viết này, chúng ta giả định các mô hình khác nhau có số chiều khác nhau để phù hợp với các tình huống đa dạng Một mô hình Bayesian đầy đủ có thể được biểu diễn bằng phương trình: p(k)p(θₖ |k)p(Y |k, θₖ), trong đó p(k) là phân phối tiên nghiệm của mô hình Mₖ, p(θₖ |k) là phân phối tiên nghiệm của tham số θₖ, và p(Y |k, θₖ) là mô hình lấy mẫu cho dữ liệu quan sát Y, với các điều kiện xác định rõ ràng Điều này giúp xây dựng một hệ thống phân tích xác suất chính xác và logic cho các mô hình khác nhau dựa trên các phân phối tiên nghiệm và dữ liệu quan sát.

Xích Markov {X_t} di chuyển giữa các mô hình có tham số thay đổi trong không gian X = ∪_{k∈K} X_k, với X_k = {k} × Θ_k Do các không gian con X_k có số chiều khác nhau, thuật toán lấy mẫu Gibbs không thể áp dụng Green (1995) đề xuất phương pháp lấy mẫu thông qua bước nhảy ngược trong MCMC (RJMCMC) để tạo ra xích Markov chuyển đổi giữa các mô hình có số chiều khác nhau RJMCMC trở thành công cụ phổ biến trong phân tích Bayes đối với các bài toán có không gian nhiều tham số và số chiều khác nhau Ý tưởng cốt lõi của RJMCMC là điều chỉnh số chiều phù hợp để phân phối ổn định f(k, θ_k|Y) ∝ p(k) p(θ_k|k) p(Y|k, θ_k), bằng cách sử dụng biến phụ trợ để xử lý vấn đề "chọn số chiều hợp lý" Trạng thái hiện tại của x là (k(t), θ_k(t)), và trạng thái đề xuất là (k*, θ_k*).

Trong trường hợp k* = k, phân phối đề nghị di chuyển các vị trí khác nhau trong cùng một không gian con X Do đó, bài toán xác định "số chiều hợp lý" không còn tồn tại vì không có sự thay đổi vị trí phù hợp để tối ưu hóa không gian.

Nếu k ∗ 6= k, sinh ra s biến ngẫu nhiên u = (u 1 , , u s ) từ phân phối ψ k (t) → k ∗ (u) và nghiên cứu song ánh

(3.10) trong đó u ∗ = (u 1 , , u s ∗ ) là vector ngẫu nhiên s ∗ chiều ,và svà s ∗ thoả mãn điều kiện: s+dk = s ∗ +dk ∗

RJMCMC là một dạng đặc biệt của thuật toán Metropolis-Hastings (MH) được sử dụng để mở rộng khả năng mô hình hóa với các biến phụ trợ phù hợp với số chiều của dữ liệu Thuật toán này giúp xử lý các bài toán phức tạp có nhiều mô hình khác nhau, nhờ vào khả năng chuyển đổi giữa các không gian mô hình đa dạng một cách hiệu quả Nhờ vào tính linh hoạt trong việc thêm hoặc bớt các biến phụ trợ, RJMCMC là công cụ quan trọng trong thống kê bay, phân tích dữ liệu đa mô hình và học máy.

Trong các kí hiệu trên, thuật toán RJMCMC có thể chia thành từng bước như sau Định nghĩa 3.6 Thuật toán bước nhảy ngược MCMC

1 Chọn mẫu M k ∗ với xác suất q k (t) , k ∗

∂( θ (t) k ,u) là Jacobi của phép biến đổi (3.10)

5 Đặt X (t+1) = (k ∗ , θ k ∗ ∗) với xác suất min(1, r) và X (t+1) = X t với xác suất còn lại

Trong nhiều bài toán, hệ số Jacobi có thể giảm xuống tới 1 bằng cách áp dụng phép đổi đồng nhất trong công thức (3.15) Điều này đồng nghĩa với việc đề xuất các mẫu mới trong không gian X_k*, nhằm tối ưu hóa quá trình xử lý Ví dụ điển hình cho phương pháp này được trình bày rõ ràng qua phân tích và minh họa cụ thể, giúp nâng cao hiệu quả của các giải pháp toán học trong thực tiễn.

Trong ví dụ 3.4 về phân tích Bayes của các mô hình hỗn hợp, ta xem xét một chuỗi các quan sát độc lập z = (z₁, , zₙ) được sinh ra từ một phân phối hỗn hợp với hàm hợp lý f(Z|m, p_m, Φ_m, η) Phân tích này giúp hiểu rõ cách cập nhật xác suất của các tham số mô hình dựa trên dữ liệu quan sát, từ đó tối ưu hóa các ước lượng và dự đoán trong mô hình hỗn hợp Áp dụng phương pháp Bayes vào mô hình hỗn hợp là kỹ thuật mạnh mẽ cho phép kết hợp dữ liệu thực tế với phân phối prior, nâng cao độ chính xác của các phân tích thống kê.

[p 1 f (z i , φ 1 , η) + +p m f (z i , φ m , η)] trong đó m là số các thành phần chưa biết p m = (p 1 , , p m ) ; Φ m = (φ 1 , , φ m ) và η là vector tham số chung cho tất cả các thành phần.

Ta xét phân phối tiên nghiệm: π(k, p k ,Φ k , η|Z) với k thoả mãn

. Khi đó,phân phối hậu nghiệm của (k, p k ,Φ k , η|Z) là: π(k, p k ,Φ k , η|Z) ∝ f (Z |k, p k ,Φ k , η)π(k, p k ,Φ k , η) (3.12) Để mô tả (3.12) RJMCMC bao gồm 3 dạng dịch chuyển "sinh", "tử","cập nhật tham số".

1, Trong dịch chuyển "sinh", một thành phần mới được sinh ra và (p k ,Φ k ) trở thành:

2, Trong dịch chuyển "tử", một thành phần được lựa chọn ngẫu nhiên i được loại bỏ và khi đó (p k ,Φ k ) trở thành: p 1

3, Trong dịch chuyển "cập nhật tham số", các tham số (p k ,Φ k , η) được cập nhật thông qua việc sử dụng thuật toán MH

Tóm lại, RJMCMC hoạt động như ví dụ sau đây:

Cho (k, p k ,Φ k , η) là trạng thái hiện tại của xích Markov Chọn một giá trị k ∗ theo ma trận ngẫu nhiên Q, trong đó, ví dụ ta đặt:

3 Tùy theo giá trị của k ∗ thực hiện các bước (a),(b) hoặc (c)

(a) Nếu k ∗ = k+ 1, thực hiện dịch chuyển "sinh" Lấy p ∼U nif [0,1] và p từ phân phối điều kiện g(φ|p k ,Φk, η) và chấp nhận miền mới với xác suất: min

(b) Nếu k ∗ = k − 1, thực hiện dịch chuyển "tử": chọn ngẫu nhiên một thành phần , gọi là thành phần i, khử và chấp nhận miền mới với xác suất min

(c) Nếu k ∗ = k, thực hiện dịch chuyển "cập nhật tham số", cập nhật tham số (pk,Φk, η) bằng cách sử dụng thuật toán MH.

Sinh ra (p ∗ k ,Φ ∗ k , η ∗ ) từ phân phối điều kiệnq(p ∗ k ,Φ ∗ , η ∗ |p k ,Φ, η) và chấp nhận điều kiện với xác suất: min

Trong các bước (a) và (b), số hạng Jacobi bằng 1 và được sử dụng để thực hiện biến đổi đồng nhất trong quá trình dịch chuyển "sinh" và "tử" Bước (c) có thể được chia thành nhiều bước nhỏ hơn, giúp cập nhật các tham số pₖ, Φₖ, η một cách riêng biệt và chính xác hơn Sử dụng các bước này đảm bảo quá trình biến đổi diễn ra mượt mà, hiệu quả, phù hợp với các ứng dụng yêu cầu tính chính xác cao trong chuyển động và điều chỉnh tham số.

Xác định điểm thay đổi

RJMCMC được ứng dụng hiệu quả trong bài toán xác định điểm thay đổi trong chuỗi dữ liệu Trong đó, Z = (z₁, , zₙ) đại diện cho dãy quan sát độc lập, và ϑ = (ϑ₁, , ϑₙ₋₁) là chỉ số của các điểm thay đổi, là vector nhị phân với các phần tử bằng 1 thể hiện vị trí của điểm thay đổi Phương pháp này giúp xác định chính xác vị trí và số lượng điểm thay đổi trong chuỗi dữ liệu một cách hiệu quả.

0 nếu ngược lại Nghĩa là,

Trong bài viết, mục tiêu chính là xác định các vị trí của điểm thay đổi c1, , ck trong dữ liệu, với các cột mốc sắp xếp theo thứ tự tăng dần từ 0 đến n Các biến z_i được mô phỏng theo phân phối pr(.), trong đó, từ c_{r-1} < i ≤ c_r, dữ liệu tuân theo phân phối Gauss với các tham số chưa biết là ϑ_r và σ_r² Đặt η(k) = ϑ(k), bao gồm các tham số như à_r và σ_r² cho r = 1, 2, , k+1, trong tập hợp mô hình X_k, là không gian chứa các mô hình với k điểm thay đổi, với ϑ(k) thuộc X_k Mục đích của phương pháp này là xác định chính xác các vị trí của các điểm thay đổi để phân tích dữ liệu một cách hiệu quả.

X k Logarit hợp lý (log- likelihood) của η (k) là

Giả sử rằng vector ϑ (k) có phân phối tiên nghiệm:

Giả sử X không có phân phối Poisson rút gọn với tham số λ, mỗi mẫu [k!(n−1−k)!] trong X đều là những tiên nghiệm phù hợp đồng bậc Điều này giúp làm rõ mối liên hệ giữa phân phối Poisson rút gọn và các mẫu thử trong quá trình phân tích thống kê Hiểu rõ đặc điểm này sẽ hỗ trợ việc áp dụng các phương pháp phân tích phù hợp trong các nghiên cứu liên quan đến phân phối rút gọn.

Giả sử rằng phương sai σ i 2 phụ thuộc vào phân phối Gamma ngược

IG(α, β) Giả sử rằng mọi tiên nghiệm là độc lập và khi đó mật độ loga có thể viết log P η (k) = a k − k+1

Trong mô hình này, công thức (3.14) xác định giá trị của a_k = (k+1)[αlogβ − logΓ(α)] + log(n−1−k)! + klogλ, trong đó α, β, λ là các siêu tham số do người dùng chọn Hậu nghiệm của phân phối η(k) có thể tính bằng cách cộng các giá trị từ các phương trình (3.8) và (3.9), giúp hiểu rõ hơn về xác suất hậu nghiệm Bằng cách tích hợp các tham số à1σ1², , àk+1σk+1² từ phân phối hậu nghiệm đầy đủ, ta có công thức logP_θ(k)|Z = a_k + (k+1)/2 log 2π − (k+1) Điều này cung cấp một cách chính xác để tính xác suất hậu nghiệm của mô hình dựa trên các siêu tham số và dữ liệu, hỗ trợ tối ưu hóa và phân tích mô hình một cách hiệu quả.

Bạn có thể sử dụng ước lượng MPA (cực đại hậu nghiệm) của ϑ (k) để giải quyết vấn đề này hoặc áp dụng thuật toán bước nhảy ngược MCMC để ước lượng phân phối hậu nghiệm P(X_k, Z) Trong quá trình này, các mô hình thỏa mãn điều kiện k_min ≤ k ≤ k_max, giúp xác định điểm thay thế qua các dịch chuyển nhảy chiều Các mẫu ϑ (k,l) được sinh ra tại từng bước lặp t, trong đó k xác định điểm thay đổi của mẫu, và các mẫu tiếp theo được tạo ra dựa trên xác suất q_k,j, với q_k,k = 1/3, q_k_min,k_min+1 = 1/3, và q_k_max,k_max−1 = 1/3, giúp điều hướng quá trình dịch chuyển Khi j = k, cập nhật mẫu theo dịch chuyển đồng thời; khi j = k + 1, thực hiện dịch chuyển ’sinh’, còn khi j = k - 1, thực hiện dịch chuyển ’tử’ Trong dịch chuyển sinh, mẫu mới được đề xuất dựa trên việc rút ngẫu nhiên từ tập {0, 1, , k} bằng biến u và tiếp tục từ tập {c_u + 1, , c_{u+1} - 1} bằng biến v, rồi gán ϑ_v = 1 để xác định mẫu ϑ (k) *.

Xác suất chấp nhận của các dịch chuyển như sau: Đối với dịch chuyển

’sinh’ xác suất chấp nhận là: min

Số hạng Jacobi bằng 1, như các mẫu được trực tiếp rút ra trong không gian X k+1 Tương tự trong dịch chuyển “tử”, xác suất chấp nhận là: min

 (3.17) Đối với dịch chuyển đồng thời, xác suất chấp nhận là: min

 (3.18) đối với đề nghị là đối xứng theo nghĩa:

Chương 4 Phương pháp biến phụ trợ MCMC

Ta xét bài toán lấy mẫu từ phân phối nhiều biến với hàm mật độ f (x).

Nguyên tắc đầu tiên của mô phỏng Monte Carlo là tối đa hóa phần tích phân của biến ngẫu nhiên để đạt được sự hội tụ tốt hơn Để điều chỉnh tốc độ hội tụ của mô phỏng, người ta thường bổ sung vào mô hình một hoặc nhiều biến ngẫu nhiên, điều này có thể gây ra các vấn đề liên quan đến độ chính xác và hiệu quả của kết quả mô phỏng.

Trong trường hợp phân phối mục tiêu f(x) có nhiều đỉnh, việc sử dụng biến ngẫu nhiên phụ trợ như nhiệt độ hoặc các đo đạc không dễ quan sát bằng mắt thường là cần thiết Các biến này được tích hợp vào các mô phỏng để giúp hệ thống thoát ra khỏi bẫy địa phương và tìm kiếm nghiệm tối ưu toàn cục một cách hiệu quả hơn.

Khi phân phối mục tiêu $ f(x) $ chứa một hằng số khó chuẩn hóa, phương pháp hiệu quả là bổ sung một biến phụ trợ $ X $ vào các mô phỏng Việc này giúp hủy bỏ các hằng số chuẩn hóa phức tạp, đảm bảo quá trình mô phỏng diễn ra chính xác hơn Thủ thuật này thường được áp dụng để đơn giản hóa việc xử lý các phân phối xác suất có đặc điểm khó khăn trong chuẩn hóa, nâng cao hiệu quả trong việc mô phỏng và phân tích dữ liệu.

Thuật toán Metropolis-Hastings (MH) bao gồm hai thành phần chính là phân phối mục tiêu và phân phối đề nghị, tạo điều kiện cho phương biến phụ thực hiện hiệu quả Phương pháp bổ sung biến phụ trợ có thể áp dụng theo hai cách: thêm biến phụ trợ vào phân phối mục tiêu hoặc vào phân phối đề nghị Cách bổ sung phân phối mục tiêu giúp cải thiện hiệu suất của thuật toán bằng cách mở rộng không gian mẫu, từ đó tăng khả năng khám phá các vùng quan trọng của phân phối mục tiêu.

1, Chỉ rõ biến phụ trợ u và phân phối có điều kiện f (u|x) để xác định phân phối đồng thời :f (x, u) = f (u|x)f (x)

2, Cập nhật (x, u) bằng cách sử dụng thuật toán MH hoặc mẫu Gibbs.

Công thức bổ sung phân phối đề nghị có thể được thực hiện như sau:

1, Chỉ rõ phân phối đề nghị T (x 0 , u|x)và phân phối đề nghị nghịch đảo của nó T (x, u|x 0 ) sao cho

2, Sinh ra một mẫu đề cử x 0 từ đề nghị T (x 0 , u|x) và chấp nhận nó với xác suất min{1, r(x, x 0 , u)} trong đó: r(x, x 0 , u) = f (x 0 )T (x, u|x 0 ) f (x)T (x 0 , u|x)

Lặp lại bước này để sinh ra x 1 , , x N có phân phối xấp xỉ là f (x) khi

N rộng hơn Tính đúng đắn của của công thức này có thể được trình bày như sau Đặt:

(4.1) là nhân chuyển dịch tích phân từ x tới x 0 , trong đó s(x, x 0 , u) =T (x 0 , u|x)r(x, x 0 , u) và I(.) là hàm chỉ tiêu Khi đó: f (x) Z

(4.2) đối xứng của x và x 0 Điều này kéo theo:f (x)K(x 0 |x) = f (x 0 )K(x|x 0 ), nghĩa là điều kiện cân bằng chi tiết thỏa mãn dịch chuyển x → x 0

Trong chương này, chúng ta sẽ xem xét lại các công thức phụ trợ MCMC, bao gồm mô phỏng nhiệt, mô phỏng điều chỉnh nhiệt và thuật toán Moller, nhằm cải thiện khả năng hội tụ của các thuật toán Thuật toán bổ sung dữ liệu, được mô tả trong mục 2.2, cũng thuộc nhóm này nhờ việc xem xét các quan sát thiếu làm biến ngẫu nhiên phụ trợ Các công thức phụ trợ này đóng vai trò quan trọng trong việc tối ưu hóa quá trình suy diễn Bayesian và nâng cao hiệu quả của các thuật toán MCMC.

Mô phỏng nhiệt luyện

Trong công nghiệp, nhiệt luyện là phương pháp sử dụng để luyện thép bằng cách đốt nóng thép đến nhiệt độ cao để biến đổi trạng thái của nó thành lỏng, sau đó làm nguội từ từ để các nguyên tử sắp xếp theo mô hình tối ưu nhất Quá trình làm nguội chậm đảm bảo các nguyên tử trong thép có thể tổ chức lại thành cấu trúc có năng lượng tự do thấp nhất, giúp cải thiện tính chất cơ học của thép Tuy nhiên, nếu quá trình làm nguội quá nhanh hoặc không đều, thép có thể rơi vào trạng thái kết đông ở mức năng lượng tự do cực tiểu cục bộ, ảnh hưởng đến chất lượng và độ bền của sản phẩm.

Thuật toán MH có thể được sử dụng để mô phỏng sự biến đổi của một vật rắn tại nhiều mức nhiệt khác nhau hướng về trạng thái cân bằng Giả định rằng mô hình thuật toán nhiệt luyện tương tự như các bài toán tối ưu tổ hợp trong chương trình nhiệt luyện, giúp tối ưu hóa quá trình nhiệt luyện của vật rắn Thuật toán này hoạt động dựa trên cơ chế chấp nhận hoặc từ chối các trạng thái mới, nhằm tìm kiếm trạng thái tối ưu nhất phù hợp với nhiệt độ cụ thể Nhờ đó, thuật toán MH cung cấp một phương pháp hiệu quả để mô phỏng và tối ưu hóa quá trình biến đổi nhiệt của vật rắn trong các điều kiện khác nhau.

Trong quá trình tối ưu hóa hàm số H(x), mục tiêu chính là tìm ra giá trị nhỏ nhất toàn phần của H(x), còn được gọi là năng lượng của mô phỏng nhiệt luyện Để thực hiện điều này, người ta bổ sung biến ngẫu nhiên phụ trợ là nhiệt độ T, giúp chuyển đổi việc tối ưu hóa thành việc lấy mẫu phân phối Boltzmann f(x, T) ∝ exp(−H(x)/T), đặc biệt khi T tiến gần đến 0 Khi T giảm dần, phân phối này tập trung vào các trạng thái có năng lượng thấp nhất, làm cho việc lấy mẫu trở nên khả thi hơn Kirkpatrick đã đề xuất mô phỏng từ một chuỗi các phân phối Boltzmann với các nhiệt độ giảm dần T1 > T2 > > Tm, trong đó Tm gần bằng 0 và T1 đủ lớn để cho phép dịch chuyển dốc MH chấp nhận được Thuật toán mô phỏng nhiệt luyện hoạt động bằng cách tuần tự chuyển đổi qua các phân phối này, bắt đầu từ nhiệt độ cao đến thấp, nhằm giúp hệ thống thoát khỏi các điểm tối ưu cục bộ và tìm ra cực trị toàn cục của hàm số.

1 Khởi tạo mô phỏng tại nhiệt độ T 1 và một mẫu bất kỳ x 0

Tại mỗi nhiệt độ $T_i$, quá trình mô phỏng phân phối $f(x, T_i)$ diễn ra bằng cách sử dụng MCMC với $N_i$ bước lặp Kết quả mẫu cuối cùng của mỗi bước mô phỏng sẽ được sử dụng làm mẫu khởi tạo cho bước nhiệt độ thấp hơn, giúp nâng cao hiệu quả hội tụ của thuật toán Quá trình này đảm bảo rằng các mẫu mô phỏng đều phản ánh đúng phân phối mong muốn tại từng nhiệt độ khác nhau, tối ưu hóa quá trình suy luận Bayesian.

Trong quan điểm của công thức phụ trợ MCMC, việc mô phỏng nhiệt luyện nhằm phân phối mục tiêu bổ sung f(x, T) được thực hiện bằng cách sử dụng biến phụ trợ T lấy từ tập hữu hạn {T₁, , Tₘ} với các giá trị giảm dần theo trình tự từ cao đến thấp Một trong những thách thức chính khi áp dụng mô phỏng nhiệt luyện là lựa chọn chương trình làm mát phù hợp; theo lý thuyết, chương trình làm mát logarit giúp làm lạnh hiệu quả, trong đó giá trị Tᵢ thuộc tập sắp xếp theo hàm logarithm với độ phức tạp O(1/log(Mᵢ)).

Chương trình làm mát nhằm mô phỏng hội tụ về toàn bộ giá trị ngẫu nhiên của H(x) với xác suất 1, nhưng quá trình này thường rất chậm và không thực tế để chờ đợi thời gian dài Trong thực tiễn, các phương pháp làm mát tuyến tính hoặc hình học giảm được sử dụng phổ biến, tuy nhiên, chúng không đảm bảo khả năng đạt đến cực tiểu toàn cục của hàm mục tiêu.

Mô phỏng nhiệt luyện có nhiều ứng dụng trong việc tối ưu hóa, ví dụ như bài toán nhân viên bán hàng lưu động.

Mô phỏng điều hoà nhiệt

Giả sử rằng ta muốn lấy mẫu từ phân phối f (x) ∝ exp (−H (x)), x ∈

Mô phỏng điều hoà nhiệt bổ sung mục tiêu phân phối f(x) ∝ exp(−H(x)|T) bằng cách thêm biến ngẫu nhiên phụ trợ T, gọi là nhiệt độ, với các giá trị hữu hạn do người dùng chỉ định Quá trình này tương tự như mô phỏng nhiệt luyện, trong đó nhiệt độ T được xử lý như một biến ngẫu nhiên phụ trợ để nâng cao hiệu quả mô phỏng Kỹ thuật này cho phép điều chỉnh phân phối đích một cách linh hoạt hơn, giúp tối ưu quá trình mô phỏng và phân tích hệ thống phức tạp.

• Mô phỏng điều hoà nhiệt cập nhật miền nối (x, T) trong cấu thành mẫu Gibbs, nghĩa là cập nhật x và T trong phương pháp lựa chọn.

• Trong mô phỏng điều hoà nhiệt, nhiệt độ thấp nhất được đặt là 1, bởi mục đích là lấy mẫu từ f (x).

Giả sử rằng nhiệt độ T thu được m giá trị khác nhau

Trong bài viết, nhiệt độ mục tiêu được định nghĩa là Tm ≡ 1 Phân phối thử nghiệm tại mức nhiệt độ Ti được mô tả bởi hàm f(x, Ti) = exp(−H(x)/Zi), trong đó Zi là hằng số chuẩn hóa Xác suất chuyển đề nghị từ mức nhiệt độ Ti đến Tj được ký hiệu là qij Ngoài ra, các xác suất chuyển trong chuỗi gồm có qi,i+1, qi,i−1, và qi,i, đều bằng 1, đảm bảo quá trình di chuyển giữa các mức nhiệt độ diễn ra liên tục và ổn định.

3 với 1 < i < m,q 1,2 = 1 3 , q m,m−1 = 1 3 , q 1,1 = 2 3 , q m,m = 2 3 Bắt đầu với i 0 = 1 và mẫu ban đầu x 0 ∈ X, mô phỏng điều hoà nhiệt lặp lại giữa 3 bước sau: Định nghĩa 4.2 Mô phỏng điều hoà nhiệt

1 Sinh ra một số ngẫu nhiên U ∼ U nif orm[0,1] và xác định giá trị của j theo ma trận truyền đề nghị (q ij )

2 Nếu j = i t đặt i t+1 = i t được sinh ra từ một hạch MH K i t (x, y) với thừa nhận f (x, T i t ) là phân phối dừng.

3 Nếu j 6= i t , đặt x t+1 = x t và chấp nhận đề nghị với xác suất : min

) trong đó Zbi chỉ ước lượng củaZi Nếu nó được chấp nhận đặt it+1 = j. Ngược lại, đặt i t+1 = i t

Mô phỏng điều hoà nhiệt dựa trên nguyên lý cung cấp khảo sát vùng năng lượng tại các mức nhiệt cao, sau đó truyền tới mức nhiệt độ mục tiêu qua quá trình cập nhật các phép toán Nhiều nghiên cứu đã chỉ ra rằng, mô phỏng điều hoà nhiệt có thể hội tụ nhanh hơn so với thuật toán Metropolis-Hastings (MH), đặc biệt trong các phân phối có vùng năng lượng giao nhau Nhờ vào khả năng hội tụ hiệu quả, mô phỏng điều hoà nhiệt đã trở thành công cụ quan trọng trong các ứng dụng yêu cầu phân phối mục tiêu phức tạp, đòi hỏi quá trình tối ưu hóa nhanh chóng và chính xác Tuy nhiên, để tận dụng tối đa hiệu quả của phương pháp này, cần xem xét các vấn đề liên quan đến thiết lập tham số và khả năng mở rộng của thuật toán trong các môi trường đa dạng.

Lựa chọn thang nhiệt độ là yếu tố quan trọng để đảm bảo hiệu quả của quá trình Nhiệt độ cao nhất T1 cần được cài đặt sao cho hầu hết các dịch chuyển dốc có thể được chấp nhận ở mức đó, giúp tối ưu hóa hiệu suất Sau đó, nhiệt độ trung gian có thể được thiết lập theo quy trình tuần tự bắt đầu từ T1, và thiết lập các mức nhiệt độ thấp hơn sao cho đáp ứng các tiêu chí đề ra, đảm bảo quá trình diễn ra liên tục và ổn định Việc điều chỉnh chính xác các mức nhiệt độ này không những giúp kiểm soát tốt quá trình nhiệt mà còn nâng cao khả năng tối ưu hóa chất lượng sản phẩm cuối cùng.

Điều kiện Var(H(x))δ² = O(1) cho thấy rằng phương sai của hàm H(x) cộng với biến δ hoặc T₁ i+1 − T₁ i phải duy trì ở mức giới hạn ổn định Điều này đồng nghĩa với việc các phân phối f(x, T i) và f(x, T i+1) cần có sự chồng lấp đáng kể để đảm bảo tính liên tục và ổn định trong phân tích dữ liệu Trong thực hành, việc kiểm tra và đảm bảo các điều kiện này rất quan trọng để duy trì độ chính xác và tính khả thi của mô hình thống kê.

V ar i (H (x)) có thể ước lượng đại khái qua tính toán sơ bộ mẫu tại mức T i

Ước lượng Z i đóng vai trò quan trọng trong hiệu quả của mô phỏng điều hòa nhiệt, giúp đảm bảo tính chính xác của kết quả Nếu hằng số chuẩn hóa giả định của Z i được ước lượng tốt, mô phỏng sẽ phản ánh chính xác quá trình theo mô hình "bước ngẫu nhiên đối xứng" dọc theo thang nhiệt độ Ngược lại, nếu ước lượng không chính xác, mô phỏng có nguy cơ bị mắc kẹt tại một mức nhiệt độ cố định, làm giảm tính khả thi của kết quả.

Sự biểu diễn mô phỏng này là thất bại Trong tính toán thực tế, Z i có thể được ước lượng khi sử dụng công thức xấp xỉ xác suất.

Chú ý rằng, để mô phỏng điều hòa nhiệt hiệu quả, cần có thời gian chờ đợi phù hợp nhằm tạo ra sự pha trộn mô phỏng hợp lý Các phân phối gần của các nhiệt độ T_i và T_{i+1} sẽ có sự chồng lấp đáng kể, đòi hỏi phải sử dụng nhiều mức nhiệt độ trung gian Trong lý tưởng, mô phỏng điều hòa nhiệt theo dạng "bước ngẫu nhiên đối xứng" trên các thang nhiệt độ sẽ dẫn đến thời gian chờ đợi giữa các mức nhiệt độ dần dần giảm, giúp đảm bảo sự hội tụ và chính xác của mô phỏng.

Điều kiện về mức nhiệt độ giới hạn trong các mô phỏng đặt ra thách thức về khả năng sử dụng các mức nhiệt đa dạng Mô phỏng điều hòa nhiệt được ứng dụng thành công trong nhiều hệ thống phức tạp, điển hình như xếp protein và thiết kế mặt bằng sàn, giúp tối ưu hóa hiệu quả và độ chính xác của quá trình phân tích.

Thuật toán Moller

Các không gian mẫu như không gian mẫu logistic tự động, mẫu Potts và mẫu tự động chuẩn tắc đóng vai trò quan trọng trong việc mô hình hóa các bài toán kỹ thuật phức tạp Chúng được ứng dụng trong phân tích hình ảnh, sơ đồ bệnh án, phân tích di truyền địa lý và nhiều lĩnh vực khác, giúp tối ưu hóa các quy trình và nâng cao độ chính xác trong xử lý dữ liệu.

Một trong những thách thức chính của các mẫu này là việc sử dụng các hằng số chuẩn hóa cực kỳ khó khăn, gây rắc rối trong việc áp dụng thực tiễn Vấn đề này đặc biệt rõ rệt khi chúng ta làm việc với tập dữ liệu X được lấy từ mẫu thống kê có hàm phân phối hợp lý, ví dụ như f(x|θ) = 1, điều này làm tăng độ phức tạp trong tính toán và phân tích dữ liệu.

Phân phối hậu nghiệm của tham số θ, dựa trên dữ liệu đã cho, có dạng tỷ lệ thuận với hàm mật độ tiên nghiệm f(θ) Trong đó, Z(θ) là hằng số chuẩn hóa phụ thuộc vào θ nhưng không thể tính dạng đóng, góp phần vào tính phức tạp trong việc xác định phân phối hậu nghiệm chính xác Mô hình chung thể hiện phân phối của xác suất dữ liệu x theo tham số θ có dạng Z(θ)exp{−U(x, θ)}, giúp hiểu rõ hơn về mối quan hệ giữa dữ liệu và tham số trong xác suất Bayesian.

Thuật toán MH không thể áp dụng trực tiếp cho mô phỏng từ phân phối f(θ|x) do yêu cầu tính tỷ số xác suất khó khăn, cụ thể là Z(θ Z(θ) 0 ) Moller và cộng sự đã đưa ra bước đột phá bằng cách đề xuất bổ sung phân phối f(θ|x) bằng các biến ngẫu nhiên phụ trợ, giúp thay đổi tỷ số chuẩn hóa Z(θ Z(θ) 0 ) trong quá trình mô phỏng một cách linh hoạt hơn.

Thuật toán Moller bắt đầu với việc đặt biến phụ trợ y cùng không gian trạng thái với x, sử dụng phân phối nối f(θ, y|x) gồm các phân phối f(x|θ), f(θ), và f(y|θ, x) Để mô phỏng từ phân phối này qua thuật toán MH, ta sử dụng phân phối đề nghị q(θ', y'|θ, y) = q(θ'|θ, y) q(y'|θ') và thiết lập q(y'|θ') bằng phân phối f(y'|θ') Tỷ số MH r(θ, y, θ', y') được tính dựa trên các phân phối liên quan, trong đó có thể bỏ qua hằng số chuẩn hóa Z(θ) Moller đề xuất đặt các phân phối đề nghị q(θ'|θ) và q(θ|θ'), cùng với các phân phối phụ trợ f(y|θ, x) và f(y'|θ', x), giúp đơn giản hóa quá trình tính toán Thuật toán bắt đầu với một điểm θ(0) tuỳ ý và mẫu y(0) được rút ra từ phân phối f y θb, sau đó thực hiện lặp qua các bước chính gồm lấy mẫu mới từ các phân phối đề nghị và cập nhật tham số để theo dõi phân phối mục tiêu.

1 Sinh ra θ 0 từ phân phối đề nghị q(θ 0 |θ t )

2 Sinh ra một mẫu chính xác y 0 từ phân phối f (y|θ 0 )

Nếu điều kiện trên thỏa mãn đặt (θ t+1 , y t+1 ) = (θ 0 , y 0 ), ngược lại ta đặt (θt+1, yt+1) = (θt, yt)

Thuật toán trao đổi

Thuật toán Moller là một phương pháp trao đổi được thiết kế đặc biệt để lấy mẫu từ phân phối f(θ|x), như đã trình bày trong công thức (4.5) Thuật toán này sử dụng phân phối bổ sung f(y₁, , y_m, θ|x), giúp cải thiện quá trình lấy mẫu và tối ưu hóa hiệu quả của các phương pháp phân tích Bayesian Với cách tiếp cận này, chúng ta có thể dễ dàng thực hiện các phép lấy mẫu từ phân phối phức tạp hơn, đảm bảo tính chính xác và hiệu quả cao trong các bài toán thống kê và máy học.

Y j=1 f (y j |θ j ) (4.10) trong đó θ 0 i cố định, và y1, , ym là các biến phụ trợ độc lập với cùng không gian trạng thái như x và phân phối đồng thời m

Trong mô hình thống kê, giả sử rằng một thay thế cho tham số θ là đề xuất với xác suất q(θ_i | θ) Khi y_i = x, ta có thể tráo đổi vị trí của x và y_i trong các tính toán Kết quả tỷ số MH cho sự thay thế này được biểu diễn bằng công thức chứa tỷ lệ giữa các phân phối hậu nghiệm và phân phối xác suất đề xuất, cụ thể là r(θ, θ_i, y_i | x) = [π(θ_i) f(x|θ_i) f(y_i |θ) q(θ|θ_i)] / [π(θ) f(x|θ) f(y_i |θ_i) q(θ_i |θ)], giúp đánh giá hiệu quả của việc thay thế tham số trong quá trình suy diễn Bayesian.

2 Sinh ra một biến phụ trợy ∼ f (y|θ 0 )với xác suất min{1, r(θ, θ 0 , y|x)} trong đó: r(θ, θ 0 , y|x) = π(θ 0 )f (x|θ 0 )f (y|θ)q(θ|θ 0 ) π(θ)f (x|θ)f (y|θ 0 )q(θ 0 |θ) (4.12)

Thuật toán trao đổi tập trung vào việc hoán vị giữa các tham số và mẫu, giúp cải thiện hiệu quả của thuật toán Moller bằng cách loại bỏ nhu cầu ước lượng tham số trước khi lấy mẫu Thuật toán này chứa một bước trao đổi cho phép chuyển đổi giữa các tham số (θ, x) và (θ', y), tăng khả năng chấp nhận các mẫu chính xác hơn so với thuật toán Moller truyền thống Nhờ đó, thuật toán trao đổi mang lại tỷ lệ chấp nhận cao hơn cho các mẫu, nâng cao độ chính xác và hiệu quả của quá trình lấy mẫu trong các mô hình thống kê phức tạp Ngoài ra, thuật toán trao đổi còn có thể xem như một phiên bản mở rộng của thuật toán MCMC, trong đó việc thêm phân phối đề nghị giúp tối ưu hóa quá trình tìm kiếm mẫu phù hợp.

Luận văn "Phương pháp MCMC và một số ứng dụng" đã trình bày được một số nội dung sau:

• Nêu các khái niệm cơ bản về phương pháp MCMC như suy luận Bayes, tích phân Monte Carlo, xích Markov.

• Trình bày một số phương pháp lấy mẫu quan trọng của phương pháp MCMC: phương pháp lấy mẫu Gibbs và thuật toán Metropolis - Hast- ing.

• Ứng dụng các thuật toán lấy mẫu Gibbs và thuật toán Metropolis - Hastings đối với các biến ngẫu nhiên nhiều chiều.

• Giới thiệu sơ lược về phương pháp biến phụ trợ MCMC.

Tiêu đề	Phương pháp MCMC và một số ứng dụng
Tác giả	Trần Thị Bích Ngọc
Người hướng dẫn	Tiến sĩ Nguyễn Thịnh
Trường học	Đại học Quốc gia Hà Nội - Trường Đại học Khoa học Tự nhiên
Chuyên ngành	Lý thuyết xác suất và thống kê toán học
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2014
Thành phố	Hà Nội

Định dạng
Số trang	56
Dung lượng	571,81 KB

Tài liệu tham khảo	Loại	Chi tiết
[1] Đào Hữu Hồ (1998), Xác suất thống kê, NXB Đại học Quốc gia Hà nội	Khác
[2] Nguyễn Duy Tiến, Vũ Viết Yên (2006), Lý thuyết xác suất, NXB Giáo dục	Khác
[3] Nguyễn Duy Tiến, Đặng Hùng Thắng (2001), Các mô hình xác suất và ứng dụng, Phần II: Quá trình dừng và ứng dụng, NXB Đại học Quốc gia Hà Nội	Khác
[4] Nguyễn Duy Tiến (2000), Các mô hình xác suất và ứng dụng, Phần I: Xích Markov và ứng dụng, NXB Đại học Quốc gia Hà nội	Khác
[5] Đặng Hùng Thắng (2012), Xác suất nâng cao, NXB Đại học Quốc gia Hà nội	Khác
[6] Faming Liang, Chuanhai Liu, Raymond J.Carroll(2010), Advanced Markov chain Monte Carlo methods	Khác
[7] Dani Gamerman, Hedibert F. Lopez (2009), Markov chain Monte Carlo stochastic simulation for Bayesian inference(2nd edition)	Khác
[8] Mark Steyvers,2011, Computational statistics with Matlab	Khác
[9] Jean-Michel Marin,Christian P.Robert,2007A practical approach to computational Bayesian statistics	Khác