1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Mô hình điều khiển Markov rời rạc với thời gian vô hạn và ứng dụng giải bài toán điều chỉnh mực nước hồ thủy điện

62 275 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 62
Dung lượng 380,91 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘITRIỆU THU THỦY MÔ HÌNH ĐIỀU KHIỂN MARKOV RỜI RẠC VỚI THỜI GIAN VÔ HẠN Chuyên ngành : LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ TOÁN HỌC Mã số : 6

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI

TRIỆU THU THỦY

MÔ HÌNH ĐIỀU KHIỂN MARKOV RỜI RẠC

VỚI THỜI GIAN VÔ HẠN

Chuyên ngành : LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ TOÁN HỌC

Mã số : 60 46 01.06

LUẬN VĂN THẠC SĨ TOÁN HỌC Người hướng dẫn khoa học: TS NGUYỄN HỒNG HẢI

HÀ NỘI - 2017

Trang 2

Mục lục

Lời cam đoan 4

Phần mở đầu 5

Lời cảm ơn 8

1 Kiến thức chuẩn bị 9 1.1 Quá trình Markov và xích Markov 9

1.2 Mô hình điều khiển Markov 10

1.2.1 Định nghĩa mô hình điều khiển Markov 10

1.2.2 Chiến lược điều khiển 11

1.2.3 Quá trình điều khiển Markov với thời gian rời rạc 12

1.3 Chiến lược điều khiển Markov 13

1.3.1 Chiến lược điều khiển Markov 13

1.3.2 Quá trình điều khiển Markov rời rạc thuần nhất 15

2 Bài toán điều khiển ngẫu nhiên dạng hàm giá suy giảm với thời gian vô hạn 19 2.1 Một số khái niệm mở đầu 19

2.2 Phương trình tối ưu dạng Bellman 20

2.2.1 Định nghĩa nghiệm của phương trình tối ưu Bellman 20 2.2.2 Chiến lược tối ưu 21

2.3 Một số tính chất bổ sung cho phương trình tối ưu Bellman 27 2.4 Chiến lược lặp và xấp xỉ giá tối ưu 31

2.4.1 Xấp xỉ hàm giá bị chặn 32

2.4.2 Xấp xỉ đệ quy giá bị chặn 32

2.4.3 Chiến lược lặp 32

2.5 Điều kiện tối ưu 34

2.6 Tiệm cận tối ưu 38

2.6.1 Định nghĩa tiệm cận tối ưu 39

Trang 3

2.6.2 Điều kiện để tiệm cận điểm tối ưu là tiệm cận tối ưu 40

2.6.3 Chiến lược lặp 41

2.7 Bài toán tối ưu với hàm giá dạng bậc 2 44

3 Bài toán điều khiển quá trình Markov với dạng hàm giá trung bình trên khoảng thời gian vô hạn 48 3.1 Định nghĩa mô hình điều khiển ngẫu nhiên 48

3.1.1 Xây dựng mô hình 48

3.1.2 Định nghĩa về giá tại bước nhảy thứ n 49

3.1.3 Định nghĩa về hàm giá 50

3.1.4 Định nghĩa chiến lược điều khiển tối ưu 50

3.2 Công thức tính xác suất chuyển và một số tính toán bổ trợ 51 3.2.1 Định nghĩa xác suất chuyển 51

3.2.2 Xác định rn(x, µ) 51

3.3 Sự tồn tại chiến lược tối ưu 52

3.4 Tìm chiến lược tối ưu và giá tối ưu 55

Trang 4

Lời cam đoan

Tôi xin cam đoan bản luận văn này là kết quả nghiên cứu của cá nhântôi Các số liệu và tài liệu được trích dẫn trong luận văn là trung thực.Kết quả nghiên cứu này không trùng với bất cứ công trình nào đã đượccông bố trước đó

Tôi chịu trách nhiệm với lời cam đoan của mình

Hà Nội, ngày 05 tháng 6 năm 2017Tác giả luận văn

Triệu Thu Thủy

Trang 5

Phần mở đầu

I LÝ DO CHỌN ĐỀ TÀI

Trong những năm gần đây, mô hình điều khiển quá trình Markov đãđược chú ý nghiên cứu rất nhiều Những mô hình với giả định khác nhau vềkhông gian trạng thái, không gian điều khiển, các dạng hàm giá đã đượcxem xét bởi nhiều tác giả như: I.I Gikhman, A.B Skorokhod, Arapos-tathis, Kumar and Tangiralla; Bokar, Xi-Ren Cao, Chang, Fard, Marcus

và Shayman; Liu Một số ứng dụng của mô hình điều khiển Markov trêncác lĩnh vực khác nhau như kinh tế, khoa học cũng được nghiên cứu bởiSennott, Karel Sladky,

Trong luận văn này, tác giả giới thiệu một số kết quả về mô hình điềukhiển Markov rời rạc với hai dạng hàm giá cơ bản:

Thứ nhất, hàm giá dạng suy giảm với thời gian vô hạn:

Ngoài ra, chúng tôi xây dựng mô hình quá trình ngẫu nhiên rời rạc điềukhiển được trên khoảng thời gian vô hạn

Với những lý do trên, dưới sự hướng dẫn tận tình của TS Nguyễn HồngHải, tôi đã chọn luận văn thạc sĩ mang tên Mô hình điều khiển Markovrời rạc với thời gian vô hạn

II MỤC ĐÍCH NGHIÊN CỨU

Giới thiệu mô hình điều khiển quá trình Markov rời rạc với thời gian

vô hạn Cụ thể là phương trình tối ưu Bellman, nghiên cứu giá tối ưu và

Trang 6

chiến lược tối ưu với hai dạng hàm giá: dạng suy giảm và dạng trung bìnhtrên khoảng thời gian vô hạn.

III ĐỐI TƯỢNG NGHIÊN CỨU

• Mô hình điều khiển Markov

• Mô hình điều khiển Markov rời rạc với thời gian vô hạn

• Phương trình tối ưu Bellman, giá tối ưu và chiến lược điều khiển tối

ưu với các dạng hàm giá khác nhau

IV PHƯƠNG PHÁP NGHIÊN CỨU

• Phương pháp nghiên cứu lí luận: đọc tài liệu, sách và các bài báo liênquan đến luận văn, tìm kiếm tài liệu trên mạng

• Sử dụng phương pháp phân tích để nắm vững vấn đề một cách chitiết

• Sử dụng phương pháp tổng hợp, tổng hợp lại các kiến thức, trình bàyvấn đề theo trình tự logic

V NHỮNG ĐÓNG GÓP CỦA LUẬN VĂN

Tổng hợp và trình bày hai mô hình điều khiển quá trình Markov vớidạng hàm giá suy giảm và hàm giá dạng trung bình trên khoảng thời gian

vô hạn

VI.CẤU TRÚC LUẬN VĂN

Luận văn bao gồm phần mở đầu, kết luận, tài liệu tham khảo và nộidung chính bao gồm 3 chương:

Chương 1 Kiến thức chuẩn bị nêu lên những khái niệm, tínhchất cần thiết cho những chương sau như định nghĩa quá trình điều khiểnMarkov, chiến lược điều khiển Markov

Chương 2: Bài toán điều khiển ngẫu nhiên dạng hàm giá suy

Trang 7

giảm với thời gian vô hạn Trong chương nêu định nghĩa, điều kiện tồntại giá tối ưu và chiến lược tối ưu, các phương pháp xấp xỉ hàm giá tối ưu.Phần cuối của chương giới thiệu bài toán cụ thể với hàm giá dạng bậc 2

và đưa ra phương pháp xác định hàm giá tối ưu trong trường hợp cụ thể.Chương 3: Bài toán điều khiển quá trình Markov với dạnghàm giá trung bình trên khoảng thời gian vô hạn Trong chươngnày tác giả xây dựng mô hình điều khiển cho bài toán điều khiển quá trìnhMarkov với bước nhảy Poisson liên quan đến quá trình semi Markov

Trang 8

Lời cảm ơn

Trong quá trình học tập, nghiên cứu và hoàn thành luận văn "Môhình điều khiển Markov rời rạc với thời gian vô hạn", tôi đã nhậnđược sự hướng dẫn, giúp đỡ và động viên của nhiều cá nhân và tập thể,tôi xin được bày tỏ lòng biết ơn tới tất cả các cá nhân và tập thể đã tạođiều kiện giúp đỡ tôi

Đầu tiên, tôi xin bày tỏ lòng biết ơn chân thành tới các thầy cô giáotrong khoa Toán, đặc biệt là các thầy trong Bộ môn Toán ứng dụng -Trường Đại học Sư phạm Hà Nội đã mang đến cho tôi những kiến thức bổích trong những năm học vừa qua và trong công việc sắp tới

Tôi xin gửi lời cảm ơn sâu sắc đến TS Nguyễn Hồng Hải - Người thầy đãtrực tiếp hướng dẫn, tận tình chỉ bảo, giúp đỡ tôi trong quá trình nghiêncứu và hoàn thành luận văn

Cuối cùng tôi xin gửi lời cảm ơn đến gia đình, bạn bè đã luôn ở bên tôi,động viên và khuyến khích tôi trong quá trình thực hiện đề tài nghiên cứucủa mình

Tôi rất mong nhận được những ý kiến đóng góp của các thầy cô, bạn bè

và những người quan tâm để luận văn được hoàn thiện và phát triển hơn.Tôi xin chân thành cảm ơn!

Hà Nội, ngày 05 tháng 6 năm 2017Triệu Thu Thủy

Trang 9

Chương 1

Kiến thức chuẩn bị

1.1 Quá trình Markov và xích Markov

Định nghĩa 1.1.1 Trên không gian xác suất (Ω, F , P ), xét quá trìnhngẫu nhiên

Xt với t ≥ 0

Ký hiệu các σ - đại số cảm sinh như sau:

F≤t = σ(Xs|s ≤ t)

Ft = σ(Xt)

Quá trình Xt được gọi là quá trình Markov nếu thỏa mãn điều kiện sau:

E(Xh|F≤t) = E(Xh|Ft) với ∀h > t (1.1)

Hệ thức (1.1) được gọi là tính Markov

Các trường hợp đặc biệt của quá trình Markov:

Ký hiệu E là không gian trạng thái của quá trình Xt vớit ≥ 0, tức là:

Trang 10

+ Nếu xích Markov có t ∈ [0, +∞) thì Xt được gọi là Xích Markov vớithời gian liên tục.

+ Nếu xích Markov có t ∈ N thì Xt được gọi là Xích Markov với thờigian rời rạc

Định nghĩa 1.1.2 Xét {Xt} là xích Markov với thời gian rời rạc Đặt:

thì ta xích Markov rời rạc là thuần nhất theo thời gian

1.2 Mô hình điều khiển Markov

1.2.1 Định nghĩa mô hình điều khiển Markov

Trước khi định nghĩa quá trình điều khiển Markov, ta có một số quyước và ký hiệu sau:

Không gian Borel: X là một không gian Borel nếu X là một không gianmetric đầy, khả ly và σ− đại số sinh bởi các tập con mở của X là σ− đại

số Borel, kí hiệu là B(X)

Hàm đo được: Xét hai không gian đo(X, B(X))và (E, B(E)) Một hàm

số f : X → E gọi là đo được hay là "Borel đo được" nếu f−1(A) ∈ B(X)

với mọi A ∈ B(E)

Hạt nhân ngẫu nhiên: Cho X và Y là hai không gian Borel Một hạtnhân ngẫu nhiên trên X được cho bởi Y là một hàm số P (.|.) thỏa mãn 2điều kiện sau:

(i) P (.|y) là một độ đo xác suất trên X với mọi y ∈ Y cố định

(ii) P (B|.) là hàm số đo được trên Y với mọi B ∈ B(X) cố định

Lớp tất cả các hạt nhân ngẫu nhiên trên X được cho bởi Y được ký hiệu

là P(X|Y )

Trang 11

Định nghĩa 1.2.1 Một mô hình điều khiển Markov là bộ gồm 5 thànhphần:

(X, A, A(x)|x ∈ X, Q, c) (1.2)Trong đó,

(a) X là không gian trạng thái, mỗi phần tử x ∈ X gọi là một trạng thái.(b) A là một không gian Borel được gọi là tập điều khiển hoặc tập hànhđộng

(c) Lớp {A(x)|x ∈ X} khác rỗng, với A(x) đo được là tập hợp điều khiểnđược khi hệ ở trạng thái x ∈ X, khi đó ta đặt:

K := {(x, a)|x ∈ X, a ∈ A(x)} (1.3)

K là tập con đo được của không gian X × A

(d) Q là một hạt nhân ngẫu nhiên trên X cho bởi K, được gọi là luậtchuyển đổi (transition law)

(e) c : K →R là một hàm số đo được, gọi là hàm giá một bước (one- stage

cost function) Trong một số trường hợp ta ký hiệu hàm giá là r : K → R

thay vì c

Giải thích sự hoạt động của mô hình

Tại thời điểm t, hệ thống có:

1.2.2 Chiến lược điều khiển

Xét mô hình điều khiển Markov trong định nghĩa 1.2.1 Với ∀t = 0, 1,

ta xác định không gian Ht - lịch sử (admissiable histories) đến thời điểm

t như sau: Giả sử H0 := X, và

Ht := Kt × X = K× Ht−1, t = 1, 2, (1.4)

Trang 12

trong đó K được cho bởi (1.3).

Mỗi phần tử ht ∈ Ht là một vectơ có dạng:

ht = (x0, a0, , xt−1, at−1, xt), (1.5)với (xi, ai) ∈ K, i = 0, 1, , t − 1 và xt ∈ X

Trong một số trường hợp ta cần sử dụng tính đóng (hoặc tính đủ) của

Ht nên ta xét không gian bao đóng của Ht như sau:

Ht := (X × A)t × X = (X × A) × Ht−1 (1.6)với H0 := H0 = X

Định nghĩa 1.2.2 Một chiến lược điều khiển ngẫu nhiên (hay chiến lượcđiều khiển, chiến lược) là dãy hạt nhân ngẫu nhiên π = (πt, t = 0, 1, 2, )

nhận giá trị trên A với điều kiện Ht cho trước thỏa mãn đẳng thức sau:

πt(A(xt)|ht) = 1, ∀ht ∈ Ht, t = 0, 1, (1.7)

Ta ký hiệu tập hợp tất cả các chiến lược là Π

Như vậy, chúng ta có thể hiểu một chiến lược π = {πt} là dãy biến điềukhiển (at) ∈ A(x) sao cho ∀ht ∈ Ht thì phân phối của at là πt(.|ht) với

t = 0, 1, 2, , được xác định bởi công thức (1.9) phía sau

1.2.3 Quá trình điều khiển Markov với thời gian rời rạc

Giả sử (Ω, F ) là không gian đo được, với không gian mẫu Ω := H∞ =(X × A)∞ và F là σ - đại số nhỏ nhất chứa các tập con của Ω, ta thấy

Khi đó theo định lý Ionescu - Tulcea thì Pνπ tồn tại và duy nhất, ngoài ra

nó thỏa mãn Pνπ(H∞) = 1 và với ∀B ∈ B(X), C ∈ B(A) và ht ∈ Ht, t =

Trang 13

Từ định nghĩa ta thấy quá trình {xt} ∈ X phụ thuộc vào chiến lược π

và phân phối ban đầu ν

Mặt khác,ta gọi họ

{(Ω, F , Pνπ, {xt})|π ∈ Π}

có thể thay thế cho ν như Quá trình điều khiển Markov (MCP) Vấn đềtìm chiến lược điều khiển tối ưu tốt nhất theo một nghĩa xác định nào đócủa họ này được gọi là một Bài toán điều khiển Markov tối ưu

Kí hiệu Eνπ := E[Pνπ], nếu ν = x ∈ X là trạng thái ban đầu thì ta viết

Pxπ thay cho Pνπ và Exπ thay cho Eνπ

Chú ý 1.2.4 Mô hình điều khiển Markov được định nghĩa 1.2.1 được gọi

là dừng nếu từng thành phần của nó: X, A, A(x) không phụ thuộc vàotham số t Ngược lại, nếu mô hình có dạng:

(Xt, At, {At(x)|x ∈ Xt}, Qt, ct), t = 0, 1,

thì ta gọi là không dừng

1.3 Chiến lược điều khiển Markov

1.3.1 Chiến lược điều khiển Markov

Xét về mặt tổng quát, với chiến lược điều khiển π bất kì thì quá trình

{xt} không có tính Markov vì nó phụ thuộc vào các trạng thái trước đó

ht Tuy nhiên, nếu những chiến lược π thỏa mãn một số điều kiện để {xt}

trở thành quá trình Markov thì π được gọi là Chiến lược Markov

Trang 14

Định nghĩa 1.3.1 X là không gian trạng thái.

Φ là ký hiệu tập hợp tất cả các hạt nhân ngẫu nhiên ϕ trong P(A|X)

thỏa mãn ϕ(A(x)|x) = 1 với ∀x ∈ X, tức là:

Một hàm số f ∈ F có thể được xác định với một hạt nhân ngẫu nhiên

ϕ ∈ Φ, vì thế ϕ(.|x) là đo được tại f (x) với ∀x ∈ X,

ϕ(C|x) = IC[f (x)], ∀x ∈ X, C ∈ B(A)

ở đó IC là hàm chỉ tiêu củaC Vì thế, chúng ta có thể thấy rằng F là mộttập con của Φ,

Định nghĩa 1.3.2 Một chiến lược π = {πt} ∈ Π được gọi là:

(a) Một chiến lược Markov ngẫu nhiên (randomized Markov policy) nếutồn tại một dãy {ϕt} các hạt nhân ngẫu nhiên ϕt ∈ Φ sao cho:

πt(.|ht) = ϕt(.|xt), ∀ht ∈ Ht, t = 0, 1, ; (1.12)(b) Một chiến lược ngẫu nhiên dừng (randomized stationary policy) nếutồn tại một hàm ϕ ∈ Φ sao cho

Trang 15

(d) π = {πt} ∈ Πđược gọi là một chiến lược Markov tất định (deterministicMarkov policy) nếu tồn tại một dãy {ft} ∈ F sao cho với mọi ht ∈ Ht và

1.3.2 Quá trình điều khiển Markov rời rạc thuần nhất

Xét quá trình điều khiển Markov rời rạc {yt}trên không gian trạng thái

X với dãy hạt nhân {Rt} tương ứng Khi đó ta có tính Markov được viếtthành: với mọi B ∈ B(X) và t = 0, 1, 2, thì

P (yt+1 ∈ B|y0, , yt) = P (yt+1 ∈ B|yt) = Rt(B|yt) (1.15)Nếu Rt = R là tất định thì {yt} được gọi là một quá trình điều khiểnMarkov thuần nhất với hạt nhân chuyển R Ngược lại nếu Rt phụ thuộc

Trang 16

vào thời gian t thì {yt} được gọi là quá trình điều khiển Markov khôngthuần nhất với hạt nhân {Rt}

Mệnh đề 1.3.3 Giả sử ν là phân phối ban đầu tùy ý Nếu π = {ϕt} làmột chiến lược điều khiển Markov ngẫu nhiên (π ∈ ΠRM) thì {xt} là mộtquá trình Markov không thuần nhất với hạt nhân {Q(.|., ϕt)}, tức là với

B ∈ B(X) và t = 0, 1, thì

Pνπ(xt+1 ∈ B|x0, , xt) = Pνπ(xt+1 ∈ B|xt) = Q(B|xt, ϕt) (1.16)

Ta thu được kết quả tương tự nếu π = {ft} ∈ ΠDM và hạt nhân Q(.|., ft).Ngược lại, với ϕ ∈ ΠRS và f ∈ ΠDS, thì {xt} là quá trình Markov thuầnnhất theo thời gian với hạt nhân {Q(.|., ϕ)} và {Q(.|., f )}

Chứng minh Trước hết ta chứng minh với chiến lược tùy ý π = {ϕt} ∈ Π,thì:

Vậy ta chứng minh được (1.17)

Đặc biệt, nếuπ = {ϕt} là một chiến lược Markov ngẫu nhiên,π ∈ ΠRM

Trang 17

ở đó, tiếp tục áp dụng tương tự, trong trường hợp này (1.16) thỏa mãn:

Pνπ(xt+1 ∈ B|xt) = Eνπ[Pνπ(xt+1 ∈ B|ht)|xt]

= Eνπ[Q(B|xt, ϕt)|xt]

= Q(B|xt, ϕt)

Vậy ta có điều phải chứng minh

Chú ý 1.3.4 (a)Xét quá trình điều khiển Markov rời rạc có phương trình

xt+1 = F (xt, at, ξt) (1.19)với t = 0, 1, và x0 là trạng thái ban đầu cho trước Trong đó, ξt là mộtdãy biến ngẫu nhiên trên không gian S độc lập cùng phân phối gốc µ vàkhông phụ thuộc vào x0,(dãy ξt được gọi là quá trình nhiễu (disturbanceprocess) Trong trường hợp này, luật chuyển đổi Q xác định bởi:

Qn−1(B|y, ϕ)Q(dy|x, ϕ), với n ≥ 1 (1.25)

(c) Với mô hình điều khiển Markov với chiến lược π = {at} và trạng tháiban đầu x0 = x Thông thường có 2 dạng hàm giá phổ biến:

Thứ nhất: hàm giá dạng suy giảm:

Trang 18

ở đó α ∈ (0, 1) là một hệ số cho trước, α được gọi là hệ số suy giảm hay

tỷ lệ suy giảm (trong một số trường hợp cụ thể)

Thứ hai: Hàm giá dạng trung bình theo thời gian Cụ thể là giá trịtrung bình của hàm giá sau N bước được tính theo công thức:

Trang 19

Chương 2

Bài toán điều khiển ngẫu nhiên

dạng hàm giá suy giảm với thời

gian vô hạn

2.1 Một số khái niệm mở đầu

Cho mô hình điều khiển Markov (X, A, {A(x)|x ∈ X}, Q, c) Nội dungchính của chương này là tìm giá trị nhỏ nhất của hàm giá dạng suy giảmvới thời gian vô hạn:

Ta luôn giả sử rằng hàm giá c là không âm (trong trường hợp tổng quátcác kết quả đúng cho c bị chặn dưới) Ngoài ra, ta sử dụng ký hiệu Vn làgiá tại bước nhảy n (n-stage cost) được định nghĩa bởi:

Trang 20

khi đó biểu thức V (π, x) tại (2.1) có thể viết dưới dạng:

V (π, x) = lim

n→∞Vn(π, x) (2.4)

2.2 Phương trình tối ưu dạng Bellman

2.2.1 Định nghĩa nghiệm của phương trình tối ưu Bellman

Định nghĩa 2.2.1 Một hàm đo được v : X → R được gọi là một nghiệm

của phương trình tối ưu dạng Bellman nếu nó thỏa mãn:

Trang 21

vn(x) = inf

Π Vn(π, x), ∀x ∈ X (2.8)Tiếp tục cho biểu (2.6) khi n → ∞ thì chúng ta thu được V∗ là nghiệmcủa phương trình tối ưu Bellman

Vậy ta có điều phải chứng minh

2.2.2 Chiến lược tối ưu

Trong phần 2.2.1 ta đã chỉ ra một nghiệm V∗(x) của phương trình tối

ưu Bellman Trong phần này ta đi xác định điều kiện để V∗(x) là hữu hạn

và tồn tại chiến lược tối ưu

Giả thiết 2.2.2 Ta có hai điều kiện sau:

(a) Hàm giá c là nửa liên tục dưới, không âm và compact địa phươngtrên K;

Trang 22

và một chiến lược f∗∞ ∈ ΠDS là chiến lược tối ưu; ngược lại nếu f∗∞ ∈ ΠDS

là chiến lược tối ưu thì nó thỏa mãn (2.11);

(c) Nếu π∗ là một chiến lược sao cho V (π∗, ) là một nghiệm của phươngtrình tối ưu Bellman và thỏa mãn

lim

n→∞αnExπV (π∗, xn) = 0, với ∀π ∈ Π0, x ∈ X (2.12)thì V (π∗, ) = V∗(.) cho nên π∗ là chiến lược tối ưu Nói cách khác, nếu

π∗ thỏa mãn phương trình (2.12) thì nó là chiến lược tối ưu khi và chỉ khi

V (π∗, ) thỏa mãn phương trình tối ưu Bellman

(d) Nếu tồn tại một chiến lược tối ưu thì trong đó tồn tại một chiến lượckhông ngẫu nhiên (thuộc ΠDS)

Để chứng minh định lý 2.2.4 ta cần chứng minh các bổ đề sau

Bổ đề 2.2.5 Giả sử u và un(n = 1, 2, ) là những hàm số nửa liên tụcdưới, bị chặn dưới và compact địa phương trên K Nếu un ↑ u, thì:

Trang 23

Sử dụng tính compact của An thì tồn tại dãy con ank ⊂ an sao cho

ank → a0 ∈ A0 Do un là đơn điệu tăng, với mọi n ≥ 1, ta có:

M (X)+ = {u : X → R|u đo được và u(x) ≥ 0, ∀ x}

Giả sử rằng giả thiết 2.2.2 được thỏa mãn, với ∀u ∈ M (X)+, ta địnhnghĩa toán tử T : M (X)+ → M (X)+ như sau:

Như vậy, T u : X → R là một hàm số trên X sao cho với ∀x ∈ X

thì T u(x) được xác định bởi (2.13) Để thuận tiện, ta sử dụng ký hiệu

T u := T u(.) với ∀x ∈ X

Trang 24

Bổ đề 2.2.7 Hơn nữa, tồn tại một phần tử f ∈ F sao cho

Tiếp theo ta xét mối quan hệ giữa V∗ và hàm số u phụ thuộc vào điềukiện u ≥ T u hoặc u ≤ T u

Bổ đề 2.2.8 Giả sử hai giả thiết 2.2.2 và 2.2.3 được thỏa mãn

(a) Nếu u ∈ M (X)+ sao cho u ≥ T u thì u ≥ V∗

(b) Nếu u : X → R là một hàm đo được, với T u xác định như trên và

u ≤ T u và :

lim

n→∞αnExπ[u(xn)] = 0, ∀π ∈ Π0, x ∈ X (2.16)thì u ≤ V∗

Chứng minh (a) Giả sử u ∈ M (X)+ sao cho u ≥ T u, bởi bổ đề 2.2.7 tồntại f ∈ F sao cho:

Trang 25

với mọi n và x Cho n → ∞, từ (2.1) và (2.2) ta có:

u(x) ≥ V (f, x) ≥ V∗(x), ∀x ∈ X

Tức là V∗ ≤ u, ta chứng minh được (a)

(b) Giả sử π ∈ Πvà x ∈ X tùy ý Từ tính chất Markov và giả thiết T u ≥ u

αtc(xt, at) ≥ −Exπαt+1u(xt+1) − αtu(xt)|ht, at

lấy kỳ vọng điều kiện Exπ của tổng với t = 0, 1, , n − 1, ta được:

Trong biểu thức trên, cho n → ∞ và sử dụng biểu thức (2.18) ta có

V (π, x) ≥ u(x) với π, x là tùy ý Từ đó thu được V∗ ≥ u

Chúng ta sẽ sử dụng bổ đề 2.2.5 để chứng minh bổ đề sau:

Bổ đề 2.2.9 (Sự hội tụ của hàm truy hồi (2.6))

Giả sử rằng giả thiết 2.2.2 được thỏa mãn, khi đó vn ↑ V∗ và V∗ thỏamãn phương trình tối ưu Bellman

Chứng minh Đầu tiên giả sử c ≥ 0, với ∀π ∈ Π, x ∈ X từ (2.8) ta có:

Trang 26

vn(x) ≤ V∗(x), ∀x ∈ X (2.18)

Ta thấy T trong (2.13) là đơn điệu, tức là nếu u, u0 ∈ M (X)+ sao cho

u ≥ u0 thì T u ≥ T u0 Vì thế, từ v0 := 0 và vn := T vn−1 với n ≥ 1, thì vn

là dãy hàm không giảm trong M (X)+, khi đó vn ↑ v∗ với v∗ ∈ M (X)+

Từ định lý hội tu đơn điệu ta có un ↑ u, với:

Từ (2.18) suy ra v∗ ≤ V∗ Hơn nữa vn ↑ v∗ nên ta có v∗ = V∗

Tiếp theo ta chứng minh định lý 2.2.4

Chứng minh (a) Từ bổ đề 2.2.9, ta có V∗ là nghiệm của phương trình tối

ưu Bellman, và V∗ là nghiệm nhỏ nhất theo bổ đề 2.2.8(a), tức là nếu

Trang 27

Vậy V∗(x) = V∗(f∗∞, x) nên f∗∞ là chiến lược tối ưu.

Tiếp tục chứng minh với mọi f∞ ∈ ΠDS thì hàm giá V (f∞, ) thỏa mãn:

Vậy ta chứng minh được (2.19)

Đặc điệt, nếu f∗ ∈ ΠDS là tối ưu thì V (f∗∞, ) = V∗(.), trong công thức(2.19) cho f = f∗ ta thu được kết quả (2.11)

(c) Nếu V (π∗, ) thỏa mãn phương trình tối ưu Bellman, thì từ bổ đề2.2.8a ta thu được V (π∗, ) ≥ V∗(.) Chiều ngược lại được suy ra từ 2.12

và bổ đề 2.2.8b

Vì vậy ta có

V (π∗, ) = V∗(x)

Cuối cùng, (d) được suy ra từ (a) và (b)

2.3 Một số tính chất bổ sung cho phương trình tối ưu Bellman

Trong phần này sẽ nghiên cứu điều kiện tồn tại giả thiết 2.2.3 và điềukiện (2.12)

Trang 28

Mệnh đề 2.3.1 Xét các điều kiện sau:

(a) Nếu c bị chặn sao cho 0 ≤ c(x, a) ≤ m với ∀(x, a) ∈ K, với hằng số

(a) =⇒ (b) =⇒ (c) =⇒ Giả thiết 2.2.3 (2.21)Hơn nữa nếu tất cả các điều kiện từ (a) đến (d) được thỏa mãn, thì mộtchiến lược π∗ là tối ưu khi và chỉ khi V (π∗, ) thỏa mãn phương trình tối

Trang 30

Vậy (2.23) được chứng minh.

Ta chứng minh (d) đúng Giả sử π và π0 là hai chiến lược bất kỳ

Từ (2.22) ta thu được V (π0, xn) ≤ C(xn) với ∀n Mặt khác từ (2.23) tacó:

Vậy c suy ra (d) và (d) suy ra (2.12)

Ta thấy, với π và π0 là hai chiến lược bất kỳ Khi chứng minh (2.20) đượchoàn thành, thì ta có (2.21)

Chú ý 2.3.2 1 Trong điều kiện (b2) nếu cho k = 1 thì {ω(xn)} là một

Pxπ - supermartingle, tức là với ∀π ∈ Π và x ∈ X thì:

Exπ[ω(xn+1)|x0, x1, , xn] ≤ ω(xn), ∀n (2.25)

Trang 31

2 Từ (2.20) ta sẽ chứng minh giả thiết 2.2.3 được thỏa mãn.

Thật vậy, từ công thức (1.7)(chương 1), với ∀hn ∈ Hn ta có:

Cho ω ≡ 1 ta có giả thiết 2.2.3

3 Giả sử rằng G là một hàm không âm, đo được trên R sao cho:

Z

X

G[u(y)]Q(dy|x, a) ≤ G(u(x)), ∀(x, a) ∈ K,

ở đó u(x) := V (π∗, x) Thì (2.12) được thỏa mãn

2.4 Chiến lược lặp và xấp xỉ giá tối ưu

Trên thực tế, vấn đề tìm giá tối ưu V∗ là rất khó khăn và phức tạp Vìthế, để nghiên cứu tính chất của V∗ ta nghiên cứu tính chất của xấp xỉcủa nó Ví dụ như, nếu chọn được dãy xấp xỉ{vn}trên X sao cho vn ↑ V∗,thì nếu vn là lồi hoặc nửa liên tục dưới hay đơn điệu thì V∗ cũng vậy

Trong mục này sẽ giới thiệu các phương pháp xấp xỉ hàm V∗

Ta mặc định các giả thiết 2.2.2 và 2.2.3 luôn được thỏa mãn

Giả sử {cn, n = 0, 1, } là một dãy hàm không âm, bị chặn trên K saocho cn ↑ c Khi đó, giả thiết 2.2.2(a) thỏa mãn khi thay c bằng cn, lúc đótoán tử T trong (2.13) được xác định như sau:

Ngày đăng: 09/06/2017, 16:59

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[3] I.I. Gihman, A.V.Skorohod. Controlled Stochatic Processes. Translated by Samuel Kotz. Springer - Verlag (1980) Sách, tạp chí
Tiêu đề: Controlled Stochatic Processes
Tác giả: I.I. Gihman, A.V. Skorohod
Nhà XB: Springer - Verlag
Năm: 1980
[1] Nguyễn Duy Tiến, Đặng Hùng Thắng.Các mô hình xác suất và ứng dụng. Phần I. Xích Markov và ứng dụng. NXB Đại học Quốc gia Hà Nội. Hà Nội (2001) Khác
[2] Nguyễn Duy Tiến, Vũ Viết Yên. Lý thuyết xác suất. NXB Giáo dục.Hà Nội (2006) Khác
[4] Nguyen Hong Hai, Đang Thanh Hai. The Model of Stochastic Control and Applications. Vietnam Journal of Mathematics 409 - 419. Ha Noi (2005) Khác
[5] Onésimo Hernánder Lema, Jean Bernard Lasserre.Discrete - Time Markov Controll Processes. Basic optimality criteria. Springer (1996) Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w