Giới thiệu:• Có nhiều khó khăn trong việc duy trì các mạng lưới giám sát môi trường. Giảm kích thước mạng lưới mà vẫn duy trì đủ thông tin để đảm bảo suy luận thống kê hợp lý về ôi nhiễ
Trang 1Ứng dụng bayes entropy cho việc thiết
kế không gian lấy mẫu môi trường
TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM KHOA MÔI TRƯỜNG VÀ TÀI NGUYÊN
Giảng viên hướng dẫn:
TS Nguyên Văn Minh Mẫn Nhóm 4: •Phạm Tuấn Quỳnh
•Trương Anh Tuấn
•Phạm Biên Vĩnh Tân
Trang 24 Lợi ích của thiết kế.
5 Tối ưu hóa vấn đề.
6 Tính không ổn định của việc mô hình hóa.
7 Áp dụng
8 Kết luận
Trang 3Giới thiệu
Các cơ quan giám sát môi trường trên toàn thế giới duy trì sự giám sát không khí quốc gia nhằm:
• Đánh giá hiệu quả của các quá trình kiểm soát
• Xác định mức độ và xu hướng ô nhiễm không khí.
• Cung cấp nguyên liệu đầu vào chất lượng không khí để phân tích đánh giá rủi ro và phân tích nguồn gây nên.
Trang 4Giới thiệu:
• Có nhiều khó khăn trong việc duy trì các mạng lưới giám sát môi trường. Giảm kích thước mạng lưới mà vẫn duy trì đủ thông tin để đảm bảo suy luận thống kê hợp lý về ôi nhiễm không khí
• Đề xuất một phương pháp mới để xếp hạng các
mạng lưới con khác nhau sử dụng một biện pháp entropy của không gian thông tin và ưu tiên giám sát các vùng có giá trị ôi nhiễm cao
Trang 5Giới thiệu:
• Phương pháp này sử dụng ý tưởng từ các thông tin và dữ liệu lý thuyết ngẫu nhiên theo công thức Bayes
• Các công việc chính là giảm kích thước các mạng lưới.
Trang 63 năm
Trang 8Vị trí các trạm quan trắc:
Trang 9Phương pháp xấp xỉ Bayes đầy đủ
• Xem xét phân phối Gauss
{Z(x) : x D R2} ∈ D ⊂ R2} ⊂ R2}
– Với trung bình E[Z(x)] =µZ (x)
– Phương sai của Z() phụ thuộc vào tham số θ, cov[Z(x)Z(y)|θ] = Cθ (x, y).θ] = Cθ (x, y).
Trang 10Phương pháp xấp xỉ Bayes đầy đủ
• Chúng ta đặt một phân phối sau vào θ,θ π( ) ∼ π( )
• Quan sát quá trình tại các điểm x1, x2, , xm, chúng ta có một vector của sự quan sát Z = (Z(x1), Z(x2), Z(x3), , Z(xm))
• Trong vấn đề của việc thiết kế mạng lưới môi trường chúng ta phải chọn một tập hợp con {x1,
x2, , xm} có kích thước sao cho sự mất mát về thông tin thống kê (ở đây là entropy) là nhỏ nhất.
Trang 11Định nghĩa entropy
• Nếu Y là biến cố, và f (y) là hàm mật độ ngẫm nhiên của Y, thì sự không chắc chắn về Y có thể được thể hiện là entropy của phân phối của Y.
• Nếu phân phối không trải rộng và điểm cao nhất gần Mode mode chỉ ra đâu là giá trị quan sát bị sai
• Ngược lại phân phối có đỉnh thấp trải rộng thì phạm vi điểm quan sát sai có thể lớn.
Trang 12H(Y ) = 0.5(log(2π ) − 1) + log(σ )
entropy là một hàm tăng của phương sai
• Nếu Y U[a, b], thì H(Y ) = log(b − a) ∼ π( )
Hàm của entropy là một hàm tăng của chiều rộng của
khoảng
Trang 13Phân phối tiên nghiệm
• Xem xét một mạng lưới Bayes sau đây
Trang 14Phân phối tiên nghiệm
• Tuy nhiên, sau khi có một sự quan sát của biến quan tâm
Y = y chúng ta chuyển π(θ ) thành π(θ|θ] = Cθ (x, y).y) và có được phân phối sau
• Vì vậy, sau khi quan sát giá trị thực của Y, nói y là mật độ tiên nghiệm của Y tại một điểm y *, sau khi quan sát y,
được định nghĩa là:
Trang 15Thiết kế mạng lưới phân phối Bayes đầy đủ
• Chọn ra một mạng nhỏ tối ưu I của cỡ K<m thông qua
mạng lưới Bayes bằng cách xem xét tất cả các tập hợp
con của cỡ k của (x1, , xm)
• Chúng tôi tính toán entropy của mật độ tiên nghiệm Si = (Z (xi1), Z (xi2), , Z (xik)) và chọn mạng con với
entropy tiên nghiệm lớn nhất
• Nơi có sự không chắc chắn cao thường khó khăn khi dự đoán được giữ lại
• Nơi với sự không chắc chắn nhỏ hơn được loại bỏ từ các mạng con
Trang 16Thiết kế mạng lưới phân phối Bayes đầy đủ
• Đặt gi() là mật độ tiên nghiệm của Si Trong việc tính toán entropy của gi(), chúng ta nên chỉ ra rằng nếu Si1, Si2, , Sip là một mẫu từ gi() Do đó
Trang 17Thiết kế mạng lưới phân phối Bayes đầy đủ
• Là một ước lượng entropy không thiên của gi () Do đó, nếu có thể tính toán giá trị của gi () cho một mạng cụ thể
Si j, và tạo ra một mẫu từ gi (), chúng ta có thể ước tính giá trị entropy của gi ()
• Mặc dù, không thể tính toán một cách rõ ràng giá trị của
gi () ,ta vẫn có thể ước tính giá trị của nó bằng cách sử
dụng phương pháp sau đây:
– Đầu tiên, chúng ta tạo ra một mẫu θ1, , θk, từ phân bố tiên
nghiệm của θ
– Sau đó, mật độ tiên nghiệm có thể được ước tính là:
Trang 18Thiết kế mạng lưới phân phối Bayes đầy đủ
• Chúng ta ước lượng etropy tiên nghiệm là
• Tuy nhiên, từ log(gˆi(Si j)) ≠ Log(gi(Si j)) ( bởi bất đẳng thức của Jensen) Biểu thức ở trên có thể không bị lêch, do đó, từ
• Gần như hội tụ hoàn toàn tới giá trị của mật độ tiên nghiệm tại So, với k → ∞ ứng với mỗi S0, chúng ta sau đó có thể dự đoán tốt bằng việc chọn K đủ lớn
Trang 19Lợi ích của thiết kế.
• Với một thiết kế tiềm năng S, chúng tôi định nghĩa một hàm ứng dụng U(S)
• Giảm đi chi phí giám sát có
• Thiết kế tối ưu bằng việc làm tối đa hỗn hợp mục tiêu giám sát.
H(S) + γU(S),U(S),
ở đây γU(S), là một ứng dụng của hệ số chuyển đổi
entropy
Trang 20Sự quan hệ ưu tiên giữa các thiết kế
• Tìm cặp mục tiêu của giá trị entropy tiên nghiệm lớn nhất ,ưu tiên với những nơi quan sát được ozon cao
• Ích lợi của entropy tổ hợp cho một thiết kế S(H(S), UZ (S)) là một điểm trong R2 Không có cách nào đạt được 2 mục đích đồng thời Bởi vậy,chúng tôi giới thiệu một mối quan hệ tương quan trong R2
để lựa chọn giữa 2 thiết kế
• Mục tiêu của chúng ta là lựa chọn một mạng con đặc trưng bởi cả entropy cao và tiện ích cao Nếu S1 và S2 là hai thiết kế, chúng phải đáp ứng:
H(S1) > H(S2) và UZ (S1) > UZ (S2) lúc đó S1 >> S2
• Nếu entropy của một thiết kế cao hơn, nhưng tiện ích của nó thấp hơn
H(S1) > H(S2) và UZ (S1) < UZ (S2)
Trang 21Sự quan hệ ưu tiên giữa các thiết kế
• Sau đó chúng tôi căn cứ quyết định của chúng tôi về mức tăng
tương đối so với sự mất mát dữ liệu ngẫu nhiên tương đối tiện ích, nếu;
thì, S1 >> S2 Nếu đảo chiều bất đẳng thức ta có S1 << S2
• Khi tỷ lệ bằng nhau, chúng ta không quan tâm đến sự lựa chọn giữa hai thiết kế và chúng ta xem xét hai thiết kế tương đương với nhau,
S1 S2,∼ π( )
và chúng ta chọn một thiết kế ngẫu nhiên
Trang 22TỐI ƯU HÓA VẤN ĐỀ
Tiêu chuẩn phát thảo dạng lưới mà có thể được dùng để định nghĩa một mạng lưới phụ hữu ích hay sự phân chia mạng lưới ban đầu Nhưng việc tối ưu hóa các vấn đề thiết kế cho các mẫu có kích thước lớn thì có tính mãnh liệt cực cao và đưa ra các vấn đề cực kỳ nan giải, Nhiều nỗ lực trước đây đã áp dụng đơn thuần them vào một lần, và các quy trình loại bỏ, thường dẫn tới các giải pháp không chính xác
Ko và cộng sự (1995) đã bàn luận một thuật toán chính xác cho việc xác định các phát thảo về động lực học dựa trên việc ước lượng đường biên trên và không liên kết với đường bao trong một nhánh và phương pháp bù
Trang 23TỐI ƯU HÓA VẤN ĐỀ
• SA là phương pháp phóng đại thực nghiệm được truyền thụ
bằng kỹ thuật làm mát một chất lỏng chậm đến giai đoạn năng lượng có khả năng thấp nhất Các giá trị khác nhau của một
chức năng có thể được xem xét các giá trị năng lượng có khả năng, và giá trị tuyệt đối được phát hiện bằng cách sử dụng một nghiên cứu ngẫu nhiên ở một cách thông minh
• Chỉ ra hàm f() là một hệ thức ta cần phóng đại Để S = (s1,…, sk) là điều kiện của các điểm khi nó ổn định trên một cực đại
toàn cầu Mục tiêu của SA là xây dựng một chuỗi Markos
không đồng nhất mà hội tụ đến (), một phân phối đồng biến với S
Trang 24TỐI ƯU HÓA VẤN ĐỀ
•Nếu Si1 << Si2, ta cập nhật giá trị Si1 thành Si2
•Nếu Si1 >> Si2, ta cập nhận Si1 thành Si2 với xác suất
.
Trang 25TỐI ƯU HÓA VẤN ĐỀ
• Ban đầu, khi Tn lớn, xác suất một bước nhảy đến một điểm
thấp hơn thì cao hơn, nhưng khi Tn tiến tới 0 xác suất của bước nhảy đến môt điểmthấp hơn trở nên nhỏ sau khi độ lặp lại đầy
đủ Các lựa chọn đa dạng cho quy trình làm sạch đã được đề
nghị trong tài liệu, ta sử dụng ở đây quy trình làm làm sạch
bằng hình học, Tn=T0c n, cho c=0.8 Để tìm được mạng lưới
phụ ban đầu cho thuật toán SA, ta dùng hình học làm đầy không gian tiếp cận bản phát thảo như đã được mô tả bởi Nychka và Saltzman
Trang 26TÍNH KHÔNG ỔN ĐỊNH CỦA MÔ HÌNH HÓA
Mô hình phương sai để mô tả đặc điểm thiếu liên tục tiềm ẩn của quy trình không gian môi trường trong khung phát thảo hệ động học Giả
sử không gian bao quát đối với D được chi làm các miền nhỏ, R1,…,
Rn, đặt tâm là r1,…, rn Ri nằm trong không gian mà ta gọi là các giao điểm của sự không liên tục và các tâm của trọng lực tại các miền của Ri’s Một giao điểm ri không nhất thiết tương ứng với một vị trí của xj khi ta quan sát quy trình Z
Trang 27• Khi > 0, hàm Z() là quy trình ưa thích, và Z0(), Z1()…, Zn()
đang nhấn mạnh các quy trình không liên tục có nghĩa không
không được quan sát đang dựa vào Gauss, và giải thích cấu trúc
không gian Z của mỗi miền Ri K(x-ri) là một chức năng khối
lượng…., khoảng cách ngược về tiết diện giữa x và ri Đây Z0()
là khởi điểm của quy trình liên tục
Tham số được giới thiệu ở đây để giải thích sự không liên tục tiềm
ẩn của Z Khi là 0 thì quá trình liên tục Khi là tham số tỷ lệ thì tính
hiệu quả của nó bị xáo trộn với biến số quy trình
Trang 28TÍNH KHÔNG ỔN ĐỊNH CỦA MÔ HÌNH HÓA
Giả dụ xa hơn là các quy trình liên tục Z0(), Z1(),…, Zn() có một biến Matern, với tham số θi=(i=(I, i, i, i) cho mỗi Zi,
khi I là hệ thức lấy giá trị khi x = 0 và nó là 0, I được hiệu chỉnh
theo Bessel của loại hai và tập hợp I, x = chứng tỏ mô hình vector x = (x 1 , x 2 ) Tham số được gọi là tham số vàng, và giải
thích biến thiên tỷ lệ nhỏ và lỗi phương pháp
Trang 29TÍNH KHÔNG ỔN ĐỊNH CỦA MÔ
HÌNH HÓA
• Tham số I đo sao cho tương ứng cho việc giảm khoảng cách; nói tổng quát tham số này gọi là khoảng Tham số I là biến của
một quãng ngẫu nhiên mà không giải thích được theo tiêu
chuẩn vàng, và thường được suy ra như ngưỡng phần chia
Tham số I đo độ phẳng của quy trình Z i, trở nên phẳng hơn với giá trị cao hơn I Khi I bằng ½ Mô hình Matern tương ứng
với phương sai số mũ Mô hình Gauss là trường hợp giới hạn
của Matern khi i Tại điểm giới hạn, không xuất hiện hiệu ứng vàng, ta có,
Trang 30TÍNH KHÔNG ỔN ĐỊNH CỦA MÔ HÌNH HÓA
Ta giả dụ, biết n, các quy trình liên tục trên n Z 1 (), Z 2 (),…, Z n () là Matern với tham số quãng là 1 ,…, n, các tham số có ngưỡng phần chia các tham số vàng và các tham số phẳng 1 ,…, 2, tương ứng nhau Vị trí của là các điểm n trong tập hợp (giao điểm của sự không liên tục) Tham số tới hạn đo phần chia từ sự liên tục cho phân bố liên tục gần đây ta kỳ vọng trở nên nhỏ Tham số này không bao gồm bản thảo trước đây của mô hình không liên tục này như được giới thiệu bởi Fuentes
Trang 31TÍNH KHÔNG ỔN ĐỊNH CỦA MÔ HÌNH HÓA
• ta biểu thị phương sai liên tục của quy trình Z i () bằng C i ()
Bằng giả dụ của chúng ta về tính độc lập đột biến của biến số
Z i () giữa Z(x j ) và Z(x k ) đơn giản hóa
• Kể từ đây, vector (Z(x1),…, Z(x m )) có một phân phối thông thường đa biến với phương sai
• mxm = ( jk ) Tiếp theo phương trình trên là
Trang 32Lựa chọn phương thức hạt nhân
Đối với cách thức hạt nhân k, ta chọn hạt nhân
Epanechnikov cho bởi
h là tham số băng thông Lựa chọn băng thông thì quan trọng; các giá trị quan trọng của băng thông dẫn đến phẳng nhiều, và các giá trị nhỏ phẳng ít Ta sử dụng tiêu chuẩn của Fuentes và Smith 2001 để chọn ra băng thông Họ đền xuất việc sử dụng khi quy trình được quan sát trên một khung lưới đồng bộ của độ rộng l
Trang 33Lựa chọn phương thức hạt nhân
• Tuy nhiên khi dữ liệu không có trên khung lưới, ta tính toán cho mỗi điểm có khoảng cách gần phần bên nhất, nghĩa là nếu ta
quan sát quy trình tại các vị trí , ta tính l1,…, lm, khi l1 là khoảng
cách của một điểm gần x1 nhất trong khoảng x2,…, xm và hơn nữa Ta chọn như băng thông, khi l’ là trung gian của l1,…, lm Tiêu chuẩn này cho việc chọn băng thông trùng khớp với một băng thông khác được đề xuất bởi Fuentes và Smith (2001) khi
dữ liệu nằm trên khung lưới
Trang 34Khung Bayesian
θ = (n, n, , r1,…, rn, θ0,…, θn)
θi=( i là tham số vector bốn của quy trình Z i liên tục Giả dụ có một hình chữ nhật tác động D R 2 mà định nghĩa miền xác định ưa thích và ta không ưa thích giá trị của quy trình ngoài D Trong các ứng dụng của
D được hình thành như một hình bao chữ nhật của các điểm mà ta
quan sát quy trình Ghi chú chỉ ra độ lớn của vector ở trên là 5n + 6
Do đó độ lớn này phụ thuộc vào n, nhiều giao điểm của quy trình
Xây dựng khung Bayesian từ việc lập công thức mô hình để ướt
tính tham số phương sai
Trang 35Các hàm phân phối ưu tiên
1 Ưu tiên cho n, nhiều giao điểm, là một poisson (), vị trí được
đưa ra một ưu tiên hang đầu đối với gamma liên kết với cơ số a
và tham số b
2 N đã cho, các giao điểm n, r1, …, rn được phân phối đồng bộ
trên miền xác định D.
3 N đã cho, các tham số ngưỡng phần chia, 2 ,…, được cho
nghịch đảo khuếch tán các tiền nghiệm Gamma có nghĩa m và
tham số hình dạng 2
4 N được cho, các tham số vàng, được cho nghịch đảo khuếch tán
các tiền nghiệm Gamma có nghĩa m và tham số hình dạng 2
Trang 36Các hàm phân phối ưu tiên
5 N được cho, các tham số khoảng, được cho nghịch đảo khuếch
tán các tiền nghiệm Gamma có nghĩa m và tham số hình dạng 2
6 N được cho, các tham số phẳng, được cho đồng bộ i.i.d trên
đoạn {0.5, 1.0, 1.5, 2.0, 2.5}
7 Tiền nghiệm đối với là không đổi với đoạn [0, 1].
Trang 37Khung Bayesian
n Poisson () và đang được phân phối đồng bộ trên D, giá trị được cho của n, nó tương đương với giả dụ rằng đang được phân phối như một quy trình poisson trên D với hằng số tỷ lệ Nếu ta
có nhiều thông tin hơn về số và phân phối không gian của một số thuộc ri có thể đặt một tiền nghiệm của quy trình Poisson
trên , với chức năng tỷ lệ thay đổi (x, y), tại nơi hàm số phân phối tỷ lệ (x, y) suy ra kiến thức về phân phối của các giao điểm
Trang 38Khung Bayesian
• Vì tham số có độ lớn đa dạng, các phương pháp Monte Carlo về chuỗi Markov không thực hiện, Vì vậy, ta dùng cách tiếp cận RJMCMC được phát triển bởi Green (1995) là xây dựng chuỗi Markov với một phân phối c1 độc lớn đa dạng đặc trưng như một phân phối ổn định Các giai đoạn của cách tiếp cận mà ta ước tính phương sai là:
• GĐ1: cập nhật các phương sai gần cho việc hòa trộn các θi, cho n cố định,
• GĐ2: them bớt một phần pha trộn
Và ta lặp lại thông qua giai đoạn 1 và 2 Ta đánh giá phương sai sử dụng cách tiếp cận Brooks và Guidici
Trang 39TỐI ƯU HÓA VẤN ĐỀ
Tiêu chuẩn phát thảo dạng lưới mà có thể được dùng để định nghĩa một mạng lưới phụ hữu ích hay sự phân chia mạng lưới ban đầu Nhưng việc tối ưu hóa các vấn đề thiết kế cho các mẫu có kích thước lớn thì có tính mãnh liệt cực cao và đưa ra các vấn đề cực kỳ nan giải, Nhiều nỗ lực trước đây đã áp dụng đơn thuần them vào một lần, và các quy trình loại bỏ, thường dẫn tới các giải pháp không chính xác
Ko và cộng sự (1995) đã bàn luận một thuật toán chính xác cho việc xác định các phát thảo về động lực học dựa trên việc ước lượng đường biên trên và không liên kết với đường bao trong một nhánh và phương pháp bù
Trang 40TỐI ƯU HÓA VẤN ĐỀ
• SA là phương pháp phóng đại thực nghiệm được truyền thụ
bằng kỹ thuật làm mát một chất lỏng chậm đến giai đoạn năng lượng có khả năng thấp nhất Các giá trị khác nhau của một
chức năng có thể được xem xét các giá trị năng lượng có khả năng, và giá trị tuyệt đối được phát hiện bằng cách sử dụng một nghiên cứu ngẫu nhiên ở một cách thông minh
• Chỉ ra hàm f() là một hệ thức ta cần phóng đại Để S = (s1,…, sk) là điều kiện của các điểm khi nó ổn định trên một cực đại
toàn cầu Mục tiêu của SA là xây dựng một chuỗi Markos
không đồng nhất mà hội tụ đến (), một phân phối đồng biến với S