TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘIKHOA TOÁN - TIN ————————–o0o————————– LUẬN VĂN THẠC SĨ TOÁN HỌC Tên đề tài MÔ HÌNH ĐIỀU KHIỂN MARKOV RỜI RẠC VỚI THỜI GIAN HỮU HẠN VÀ MỘT ỨNG DỤNG TRONG LÍ T
Trang 1TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI
KHOA TOÁN - TIN
————————–o0o————————–
LUẬN VĂN THẠC SĨ TOÁN HỌC
Tên đề tài
MÔ HÌNH ĐIỀU KHIỂN MARKOV RỜI RẠC
VỚI THỜI GIAN HỮU HẠN VÀ MỘT ỨNG DỤNG
TRONG LÍ THUYẾT ĐỔI MỚI
Chuyên ngành : Lý thuyết Xác suất và Thống kê Toán học
Giảng viên hướng dẫn : TS.Nguyễn Hồng Hải
HÀ NỘI - 2017
Trang 2Mục lục
Phần mở đầu 3
Lời cảm ơn 5
1 KIẾN THỨC CHUẨN BỊ 6 1.1 Giới thiệu chung về quá trình điều khiển Markov 6
1.1.1 Giải thích 6
1.2 Các ví dụ 8
1.2.1 Ví dụ về quản lí nghề cá 8
1.2.2 Ví dụ danh mục đầu tư lựa chọn 9
1.2.3 Ví dụ về hệ thống tồn kho - sản xuất 10
1.3 Chính xác hóa về quá trình điều khiển Markov 11
1.4 Các chiến lược Markov 14
1.5 Tính chất Markov 15
2 BÀI TOÁN VỚI THỜI GIAN HỮU HẠN 18 2.1 Giới thiệu 18
2.2 Quy hoạch động 18
2.3 Điều kiện chọn đo được 21
2.4 Biến thể của phương trình quy hoạch động 23
2.5 Bài toán giá có dạng giá tuyến tính bậc hai 26
2.6 Bài toán tiêu thụ - đầu tư 29
2.7 Một hệ thống tồn kho - sản xuất 31
3 MÔ HÌNH QUÁ TRÌNH ĐIỀU KHIỂN MARKOV BƯỚC NHẢY VÀ ÁP DỤNG 34 3.1 Xây dựng mô hình điều khiển 35
3.2 Sự tồn tại chiến lược tối ưu 36
3.3 Phương pháp xây dựng chiến lược tối ưu và chiến lược ε -tối ưu 39
3.4 Chiến lược tối ưu và giá tối ưu trong trường hợp đại lượng ngẫu nhiên ξ có phân phối mũ 41
Trang 3Kết luận 43
Trang 4Phần mở đầu
I LÝ DO CHỌN ĐỀ TÀI
Trong những năm gần đây, mô hình xích Markov điều khiển được đangđược nhiều nhà toán học quan tâm nghiên cứu Các tác giả I.I Gikhman,A.B Skorokhod, Arapostathis A., Kumar R., Tangirala S., Bokar V S,Xi-Ren Cao, Liu P T xét mô hình xích Markov điều khiển được với cácđiều kiện mở rộng khác nhau: Mở rộng không gian trạng thái; mở rộngkhông gian pha của điều khiển và xét các dạng hàm giá khác nhau Một
số tác giả khác quan tâm nghiên cứu ứng dụng của mô hình xích Markovđiều khiển được để giải quyết các bài toán trong các lĩnh vực khác nhaucủa thực tiễn Chẳng hạn Brock W A, Tapiero C S, Goel., Richter N.,Hanson F.B,.v.v
Trong luận văn này, chúng tôi trình bày kết quả nghiên cứu về môhình Markov rời rạc điều khiển được với khoảng thời gian hữu hạn và ứngdụng để giải quyết một lớp bài toán trong lí thuyết đổi mới, cụ thể là: sửdụng mô hình quá trình Markov điều khiển được, chúng tôi đã xây dựng
mô hình và giải quyết bài toán xác định thời điểm kiểm tra tối ưu theoquan điểm của lí thuyết các quá trình ngẫu nhiên điều khiển được Qua
đó chúng tôi đã đưa ra phương pháp để giải quyết bài toán này, đồng thờiđưa ra các kết quả đối với mô hình quá trình Markov điều khiển được đãđược xây dựng tương ứng
II MỤC ĐÍCH NGHIÊN CỨU
Giới thiệu các khái niệm về mô hình điều khiển quá trình Markovrời rạc với thời gian hữu hạn, tập trung chính vào các vấn đề: sự tồn tạichiến lược tối ưu, xây dựng chiến lược tối ưu và nghiên cứu giá tối ưu
III ĐỐI TƯỢNG NGHIÊN CỨU
• Mô hình điều khiển Markov
• Mô hình điều khiển Markov rời rạc với thời gian hữu hạn
• Mô hình quá trình Markov bước nhảy bị điều khiển và ứng dụng
Trang 5IV PHƯƠNG PHÁP NGHIÊN CỨU
• Phương pháp nghiên cứu lí luận: đọc tài liệu, sách và các bài báo liênquan đến luận văn, tìm kiếm tài liệu trên mạng
• Sử dụng phương pháp phân tích để nắm vững vấn đề một cách chitiết
• Sử dụng phương pháp tổng hợp, tổng hợp lại các kiến thức, trình bàyvấn đề theo trình tự logic
V CẤU TRÚC LUẬN VĂN
Nội dung của luận văn bao gồm ba chương:
Chương 1: Kiến thức chuẩn bị
Nêu ra những khái niệm, tính chất cần thiết cho các chương sau như địnhnghĩa quá trình điều khiển Markov, các ví dụ về quá trình điều khiển vàđịnh nghĩa chiến lược Markov
Chương 2: Bài toán với thời gian hữu hạn
Chương này đưa ra định lí về quy hoạch động và các biến thể của phươngtrình quy hoạch động, các điều kiện chọn đo được và bài toán tuyến tínhbậc hai
Chương 3: Mô hình quá trình Markov bước nhảy bị điều khiển
và áp dụng
Trong chương này chúng tôi trình bày một mô hình Markov bước nhảy
bị điều khiển và ứng dụng trong lí thuyết đổi mới Để thực hiện điều đó,chúng tôi trình bày: xây dựng mô hình điều khiển phù hợp với bài toántrong lí thuyết đổi mới, chứng minh sự tồn tại chiến lược tối ưu và phươngpháp xây dựng chiến lược tối ưu
Trang 6Lời cảm ơn
Trong quá trình học tập, nghiên cứu và hoàn thành luận văn "Môhình điều khiển Markov rời rạc với thời gian hữu hạn và mộtứng dụng trong lí thuyết đổi mới", chúng tôi đã nhận được sự hướngdẫn, giúp đỡ và động viên của TS.Nguyễn Hồng Hải Chúng tôi xin bày
tỏ lòng biết ơn chân thành đến sự hướng dẫn nhiệt tình của thầy
Đồng thời, chúng tôi xin gửi lời cảm ơn sâu sắc tới các thầy cô giáo trongkhoa Toán, đặc biệt là các thầy trong Bộ môn Toán ứng dụng - Trườngđại học Sư phạm Hà Nội đã mang đến cho chúng tôi những kiến thức bổích trong năm học vừa qua và trong những công việc sắp tới
Cuối cùng, chúng tôi cũng xin gửi lời cảm ơn đến gia đình, bạn bè đãluôn ở bên chúng tôi, động viên và giúp đỡ chúng tôi trong quá trình thựchiện đề tài nghiên cứu của mình
Vì thời gian và trình độ có hạn, luận văn chắc chắn không thể tránhkhỏi những thiếu sót Chúng tôi hi bọng sẽ nhận được sự đóng góp ý kiếncủa các thầy cô và các bạn
Chúng tôi xin chân thành cảm ơn!
Hà Nội, ngày 07 tháng 06 năm 2017
Nguyễn Đức Anh
Trang 7Chương 1
KIẾN THỨC CHUẨN BỊ
1.1 Giới thiệu chung về quá trình điều khiển Markov
Mô hình điều khiển với thời gian rời rạc là bộ năm:
sự phát triển của hệ thống được mô tả như sau: Nếu hệ thống ở trạng thái
xt = x ∈ X ở thời điểm t và điều khiển tại at = a ∈ A(x) được áp dụngthì có hai điều xảy ra:
(i) chi phí c(x, a) phát sinh
(ii) hệ thống di chuyển sang trạng thái tiếp theo xt+1, đó là một giá trịbiến X - ngẫu nhiên với phân phối Q(·|x, a), tức là.,
Q(B|x, a) := P rob(xt+1 ∈ B|xt = x, at = a), B ⊂ X (1.2)Khi qúa trình chuyển đổi sang trạng thái mới, một điều khiển mới đượcchọn và quá trình này được lặp đi lặp lại (i) và (ii) là một đặc điểm chínhcủa một quá trình điều khiển Markov, tức là, tại bất kì thời điểm nào, chiphí (hoặc lãi) và các luật chuyển tiếp chỉ phụ thuộc vào trạng thái hiệntại của hệ thống và các hành động hiện tại Đối với thời điểm này, chúng
Trang 8ta hãy giải thích chiến lược điều khiển như một chuỗi π = {at} của cáchành động có tính khả thi với at ∈ A(xt), t = 0, 1, và gọi Π là tập hợpcủa tất cả các chiến lược Một chiến lược π và một trạng thái ban đầu
xo = x quyết định một quá trình ngẫu nhiên " dạng - Markov" được gọi
là quá trình điều khiển Markov ( MCP) Thực tế, do sự lạm dụng thuậtngữ, toàn bộ họ của MCPs được quyết định bởi Π được gọi là một MCP.Trong nhiều ứng dụng, sự phát triển của một MCP được xác định bởiphương trình thời gian rời rạc có dạng:
xt+1 = F (xt, at, ξt), t = 0, 1, ; (1.3)
x0 cho trước Trong đó, {ξt} là một chuỗi các biến ngẫu nhiên độc lậpcùng phân phối (i.i.d) với các giá trị trong không gian S và có phân phốichung µ, độc lập với trạng thái ban đầu x0 (Các dãy {ξt} được gọi là mộtquá trình xáo trộn, nhưng thỉnh thoảng nó được gọi là một quá trình điềukhiển hoặc quá trình môi trường hoặc quá trình ngoại sinh ) Trong trườnghợp này, luật chuyển tiếp Q ở (1.2) được cho bởi:
Quan sát (1.3), trong trường hợp đặc biệt, hệ thống điều khiển tất định
là xt+1 = F (xt, at), luật chuyển tiếp (1.4) sẽ trở thành
Như đã lưu ý, để xác định một vấn đề điều khiển tối ưu, ngoài một hệ thốnghành dộng và tập hợp những chiến lược, chúng ta cần một hiệu suất tiêuchuẩn - còn được gọi là chỉ số hiệu suất hoặc hàm chỉ tiêu Trong trườnghợp của chúng ta, một tiêu chuẩn hiệu suất điển hình là dự kiến tổng chiphí lên tới thời gian nhất định N, đó là,
Trong đó Exπ là kì vọng lấy theo độ đo xác suất cảm sinh của quá trình
{Xk|k = 0, 1, 2 } khi sử dụng chiến lược π = {at}, với trạng thái banđầu xo = x Một chiến lược π∗ sao cho
JN(π∗, x) = inf
Trang 9được gọi là một chiến lược tối ưu, với chi phí tối thiểu (1.6), tức là:
JN∗(x) := inf
Q JN(π, x), ∀x ∈ X,được gọi là hàm giá của bài toán điều khiển hoặc chi phí tối ưu
Số N trong (1.5) được gọi là sự kế hoạch hóa ( hoặc tối ưu hóa ) thờigian Nó đại diện cho số giai đoạn trong đó hệ thống sẽ được vận hành, và
nó có thể là hữu hạn hoặc vô hạn Trong trường hợp đầu, bài toán trênđược coi là một bài toán với thời gian hữu hạn, và trong trường hợp sau
nó là bài toán với thời gian vô hạn Tất nhiên, nếu N = +∞, thì tổngtrong (1.5) có thể không hội tụ - ít nhất đối với một số chiến lược π Hàmgiá JN(π, x)trong (1.5) được gọi là giá tổng chi phí Ngoài ra người ta cònxét giá dạng suy giảm theo thời gian:
1.2 Các ví dụ
1.2.1 Ví dụ về quản lí nghề cá
Hãy xem xét một số lượng cá Ví dụ, cá hồi, trong bất cứ mùa nào cũng
có thể bị bắt và phần còn lại sẽ đẻ trứng cho mùa tới Như vậy, trong bất
kỳ mùa nào, trạng thái x của hệ thống là quy mô dân số, và hành động a
là dân số được để lại để đẻ trứng Trong trường hợp này, một giai đoạn "lãi " là bắt hoặc thu hoạch r(x, a) := x − a, và mô hình tăng trưởng dân
số được giả định là hình thức (gọi là mô hình Ricker)
xt+1 = θ1at · exp(−θ2at + ξt), t = 0, 1, 2, (1.8)Trong đó θ1 và θ2 là các hằng số, và {ξt} là một chuỗi các biến ngẫu nhiêni.i.d
Để xác định một mô hình điều khiển Markov trong (1.8), chúng ta cóthể lấy không gian trạng thái và hành động là X = A = R+, trong đó
R+ := [0, ∞) Khi dân số còn lại cho sinh sản không vượt quá tổng quy
mô dân số, tập các hành động khả thi là A(x) := [0, x] mỗi khi hệ thốngđang ở trạng tháix Với sự phân bố xác suất của các biến "môi trường" ξt,
Trang 10luật của quá trình chuyển đổi Q được xác định bởi (1.8), như trong (1.3)
- (1.4)
1.2.2 Ví dụ danh mục đầu tư lựa chọn
Ví dụ này liên quan đến các vấn đề phải đối mặt của một "nhà đầu tưnhỏ" (nghĩa là một đại lý kinh tế mà hành động không thể ảnh hưởng đếngiá cả thị trường), người có quyền quyết định chiến lược tiêu thụ đầu tưtốt nhất, ông ấy / bà ấy muốn phân bổ tổng mức đầu tư các tài sản khácnhau với mức giá khác nhau Chúng ta xem xét hai tài sản: một trong số
đó là tài sản phi rủi ro hay an toàn (ví dụ, một trái phiếu) với một lãi suất
cố định i, và một tài sản khác là một tài sản rủi ro (cổ phiếu) với một tỷsuất lợi nhuận ngẫu nhiên ξt đầu tư tại thời điểm t Một chiến lược tiêuthụ đầu tư là một chuỗi π = {(pt, ct), t = 0, 1, } bao gồm một quá trìnhdanh mục vốn đầu tư {pt} và một quá trình tiêu thụ {ct} Đó là, tại mỗithời điểm t, pt (resp.1 − pt) là hàm của tài sản đầu tư vào các cổ phiếu,(resp là các tài sản an toàn.) và ct là số lượng tài sản tiêu thụ; chúng phảithỏa mãn các hạn chế
trong đó xt biểu thị tài sản của nhà đầu tư tại thời điểm t Như vậy, trạngthái hay tài sản quá trình xt phát triển theo phương trình
xt+1 = [(1 − pt)(1 + i) + ptξt](xt − ct), t = 0, 1, , (1.10)với tài sản ban đầu x0 = x > 0
Trong ví dụ này, chúng ta có thể đưa ra không gian trạng thái X := R+
và điều khiển A := [0, 1] × R+ Từ (1.9), các tập điều khiển khả thi
a = (p, c) là A(x) := [0, 1] × [0, x] bất cứ khi nào trạng thái hay tài sản
là x Giả sử {ξt} là một chuỗi các biến ngẫu nhiên i.i.d với phân phối µ,luật chuyển đổi Q được xác định từ (1.10), như trong (1.3) - (1.4) Cuốicùng, để hoàn thành các đặc điểm kỹ thuật của một mô hình điều khiểntrong (1.1), chúng ta giới thiệu một hàm lãi r(x, a) (thay vì một hàm chiphí c) Một sự lựa chọn tiêu biểu của r trong kinh tế tài chính như một
"lợi ích từ tiêu dùng", tức là, với a = (p, c) ∈ A(x),
trong đó u là một hàm "lợi ích" nhất định Do đó, ví dụ, hiệu suất chỉ sốtrong (1.7) - thay thế c bởi r trong (1.11) - trở thành tổng dự kiến tiệních chiết khấu từ sự tiêu thụ, và vấn đề điều khiển tối ưu tương ứng là đểtối đa hóa tiêu chuẩn này trong tập tất cả chiến lược tiêu thụ đầu tư thỏamãn (1.9)
Trang 111.2.3 Ví dụ về hệ thống tồn kho - sản xuất
Hãy xem xét một hệ thống hàng tồn kho - sản xuất trong đó biến trạngthái xt là mức tồn kho bắt đầu của thời kỳ t (t = 0, 1, ) Biến điều khiểnhoặc biến hành động at là số lượng đặt hàng (hoặc sản xuất) và ngay lậptức được cung cấp ngay từ đầu thời kỳt, và "nhiễu loạn" hay "ngoại sinh"biếnξt là nhu cầu trong thời gian đó Chúng ta giả sử ξt là biến ngẫu nhiêni.i.d Các dạng của phương trình hệ thống phụ thuộc vào các giả thiết Ví
dụ, nếu hệ thống có một sức chứa vô hạn và nhu cầu không được hoànthành ở cuối mỗi giai đoạn đã mất, thì phương trình hệ thống là
xt+1 = max(0, xt + at− ξt), t = 0, 1, , (1.12)
và chúng ta có thể coi không gian trạng thái và không gian hành động là
X = A = A(x) = R+ với mọi x ∈ X Tuy nhiên, nếu hệ thống có côngsuất C hữu hạn, phương trình hệ thống sẽ trở thành (1.12), nhưng X và
A trở thành X = A = [0, C], vì tài sản hiện tại cộng với số tiền đặt hàngkhông thể vượt quá năng lực của hệ thống, tập các hành động khả thi là
A(x) = [0, C − x] cho mỗi x ∈ X Mặt khác, chúng ta có thể cho phépmức tồn kho "âm" bằng cách giả sử rằng số lượng đơn hàng yêu cầu vượtquá đơn hàng chưa được xử lí và đơn hàng đã được đáp ứng khi hàng tồnkho bổ sung sẵn sàng Trong trường hợp này, thay vì (1.12), chúng ta có
xt+1 = xt + at − ξt, t = 0, 1, , (1.13)
và không gian trạng thái là X =R hoặc X = (−∞, C], dù công suất của
hệ thống là vô hạn hay hữu hạn Tương tự như vậy, các chỉ số hiệu suất cóthể có các dạng khác nhau Ví dụ, nếu chúng ta muốn tối đa hóa doanhthu dự kiến cho hoạt động của hệ thống, chúng ta có thể lấy lưới doanhthu ở giai đoạn t là
r(xt, at, ξt) := s · min(ξt, xt + at) − d · at − h · (xt + at) (1.14)Doanh thu bán hàng bằng doanh số bán hàng trừ đi chi phí sản xuất vàtrừ đi chi phí đang giữ Trong (1.14), s, d, h là các số dương biểu thị đơngiá bán, chi phí sản xuất và đơn vị giữ chi phí tương ứng Mặt khác, chúng
ta có thể giảm thiểu chi phí vận hành dự kiến Ví dụ, trong (1.13), chophép hàng tồn kho âm, điển hình một giai đoạn hàm chi phí là
c(xt, at, ξt) = d · at + h · max(0, xt+1) + p · max(0, −xt+1) (1.15)trong đó d là chi phí các đơn vị sản xuất (hoặc sức mua), h là đơn vị nắmgiữ chi phí cho hàng tồn kho dư thừa, và p là chi phí thiếu hụt (hoặc chiphí xử phạt) dành cho yêu cầu chưa được hoàn thành Với bất kì phương
Trang 12trình hệ thống và lãi hoặc hàm chi phí nào chúng ta có, chúng ta cũng cóthể viết các mô hình theo dạng (1.1) Đặc biệt, viết các chi phí (1.15) dướidạng c(x, a), mà chỉ phụ thuộc vào trạng thái và điều khiển nhưng khôngphải trên các biến xáo trộn, chúng ta có thể định nghĩa
c(x, a) := E[c(xt, at, ξt)|xt = x, at = a]
=
Z
c(x, a, s)µ(ds)
trong đó µ là kí hiệu phân bố của ξ
1.3 Chính xác hóa về quá trình điều khiển Markov
Trước khi định nghĩa quá trình điều khiển Markov, ta có một số quyước và ký hiệu sau:
Không gian Borel: X là một không gian Borel nếu X là tập Borel concủa một không gian metric đầy, khả ly σ− đại số Borel sinh bởi các tậpcon mở của X ký hiệu là B(X)
Hàm đo được: Xét hai không gian đo(X, B(X))và (E, B(E)) Một hàm
số f : X → E gọi là đo được hay là "Borel đo được" nếu f−1(A) ∈ B(X)
với mọi A ∈ B(E)
Hạt nhân ngẫu nhiên: Cho X và Y là hai không gian Borel Một hạtnhân ngẫu nhiên trên X được cho bởi Y là một hàm số P (.|.) thỏa mãn 2điều kiện sau:
(i) P (.|y) là một độ đo xác suất trên X với mọi y ∈ Y cố định
(ii) P (B|.) là hàm số đo được trên Y với mọi B ∈ B(X) cố định
Lớp tất cả các hạt nhân ngẫu nhiên trên X được cho bởi Y được ký hiệu
là P(X|Y )
Định nghĩa 1.3.1 Một mô hình điều khiển là bộ gồm 5 tham số
bao gồm
(a) Một không gian X, X được gọi là không gian trạng thái và mỗi phần
tử thuộc X gọi là một trạng thái
(b)A là một không gian Borel được gọi là tập điều khiển hoặc tập hànhđộng
(c)Họ {A(x)|x ∈ X} khác rỗng các tập đo được A(x) của A, trong đó
Trang 13A(x) kí hiệu là tập hợp điều khiển được hoặc những hành động khi hệthống ở trạng thái x ∈ X và với tính chất đó thì tập
(e)Một hàm đo được c : K →R được gọi là hàm giá ( hoặc hàm chi phí
mỗi giai đoạn)
Trong một số trường hợp để thuận tiện thì ta có thể xem một hàm lãi mỗigiai đoạn là r : K → R thay vì hàm giá c Hơn nữa, chúng ta đảm bảorằng tập hợp các chiến lược điều khiển là không rỗng Vì vậy, ngoài tập
K ⊂ X × A đo được, chúng ta có giả thiết sau đây
Giả thiết 1.3.2 K chứa đồ thị của những hàm số đo được từ X vào
A, đó là có một hàm số đo được f : X → A sao cho f (x) ∈ A(x) với
∀x ∈ X
Chiến lược: Xem xét mô hình điều khiển trong định nghĩa 1.3.1 và vớimỗi t = 0, 1, định nghĩa không gian Ht của quá khứ chấp nhận được chođến thời điểm t khi H0 := X, và
Ht := Kt × X = K× Ht−1, t = 1, 2, (1.18)trong đó K là tập trong (1.17) Mỗi phần tử ht của Ht được goi là một t -quá khứ chấp nhận được hoặc đơn giản ta gọi là t - quá khứ, là một vectơ
có dạng:
ht = (x0, a0, , xt−1, at−1, xt), (1.19)với (xi, ai) ∈K với i = 0, 1, , t − 1 và xt ∈ X Để đảm bảo rằng các điềukiện phần sau được dùng đến, ta xét không gian compact:
Ht := (X × A)t× X = (X × A) × Ht−1, t = 1, 2, (1.20)
và H0 := H0 = X
Định nghĩa 1.3.3 Một chiến lược điều khiển ngẫu nhiên - hay nóingắn gọn là một chiến lược điều khiển hoặc một chiến lược là một dãy
π = {πt, t = 0, 1, 2, } với hạt nhân ngẫu nhiên πt trên tập điều khiển A
được cho bởi Ht thỏa mãn điều kiện sau:
πt(A(xt)|ht) = 1, ∀ht ∈ Ht, t = 0, 1, (1.21)
Trang 14Ký hiệu tập hợp tất cả những chiến lược bằng Π.
Trong phần tiếp theo, chúng ta sẽ giới thiệu một số lớp con quan trọngcủa tập các chiến lược
Một chiến lược π = {πt} có thể được xác định rõ ràng khi biết mộtdãy con {at} của tập các hành động A, sao cho, với mọi t - quá khứ ht
trong (1.19) và t = 0, 1, , phân phối của at là πt(.|ht), bởi (1.21), đượctập trung trên A(xt), tập hợp các hành động thực hiện được ở trạng thái
xt Giải thích này của π được thực hiện trong phương trình (1.22b).Xây dựng chính tắc Cho (Ω, F ) là không gian đo được bao gồm khônggian mẫu Ω := H∞ = (X × A)∞ và F là σ- đại số Những phần tử của
Ω là các dãy con có dạng ω = (x0, a0, x1, a1, ) với xt ∈ X và at ∈ A vớimọi t = 0, 1, Ta thấy H∞ = K∞ ⊂ Ω
Cho π = {πt} là một chiến lược điều khiển tùy ý vàν là độ đo xác suấttùy ý trên X được gọi là "phân phối ban đầu"
Kí hiệu Pνπ là độ đo xác suất trên Ω cảm sinh bởi chiến lược π =(π1, π2, ) với điều kiện ν Vì thế, từ định lý Ionescu - Tulcea tồn tại duynhất một độ đo xác suấtPνπ trên không gian(Ω, F ), thỏa mãnPνπ(H∞) = 1
và hơn thế nữa với mọi B ∈ B(X), C ∈ B(A) và ht ∈ Ht, t = 0, 1, 2, :
Quá trình {xt} trong định nghĩa 1.3.4 phụ thuộc vào chiến lược cụ thể
π và phân phối ban đầu ν Vì thế, nói theo cách khác, chúng ta nên viết
xπ,νt thay cho xt Tuy nhiên,chúng ta sẽ giữ ký hiệu đơn giản xt và ngầmhiểu rằng nó phụ thuộc vào π và ν
Mặt khác, chúng ta đôi khi coi họ {(Ω, F , Fπ
ν , {xt})|π ∈ Π} có thể thaythế cho ν như Quá trình điều khiển Markov (MCP) Họ này cùng vớiviệc thực hiện các tiêu chuẩn tối ưu được gọi là một Bài toán điều khiểnMarkov
Kỳ vọng của Pνπ được ký hiệu là Eνπ Đặc biệt, nếu ν chỉ tập trung tại
"trạng thái ban đầu" x ∈ X thì ta viết Pxπ thay cho Pνπ và Exπ thay cho
Fνπ
Phương trình (1.22c) như là một điều kiện Markov, nhưng tất nhiên,nói chung quá trình trạng thái {xt} là không có tính Markov theo nghĩathông thường Tuy nhiên, nếu π được hạn chế trên một dãy con thích hợp
Trang 15của chiến lược (gọi là chiến lược Markov) thì {xt}trở thành một quá trìnhMarkov.
1.4 Các chiến lược Markov
Định nghĩa 1.4.1 Φ là ký hiệu tập hợp tất cả các hạt nhân ngẫu nhiên
ϕ trong P(A|X) sao cho ϕ(A(x)|x) = 1 với mọi x ∈ X, và F là tập hợptất cả các hàm số đo được f : X → A thỏa mãn f (x) ∈ A(x) với mọi
x ∈ X, những hàm số trong F được gọi là một bộ chọn từ x 7→ A(x).Chú ý Từ giả thiết 1.3.2 đảm bảo rằng F 6= ∅ và Φ 6= ∅
Một hàm số f ∈ F có thể được xác định với một hạt nhân ngẫu nhiên
ϕ ∈ Φ, vì thế ϕ(·|x) là đo được Dirac tại f (x) với ∀x ∈ X,
ϕ(C|x) = IC[f (x)], ∀x ∈ X, C ∈ B(A)
ở đó IC là hàm chỉ tiêu củaC Vì thế, chúng ta có thể thấy rằng F là mộttập con của Φ,
Định nghĩa 1.4.2 Một chiến lược π = {πt} ∈ Π được gọi là một:
(a) Một chiến lược Markov ngẫu nhiên nếu tồn tại một dãy {ϕt} các hạtnhân ngẫu nhiên ϕt ∈ Φ sao cho:
πt(·|ht) = ϕt(·|xt), ∀ht ∈ Ht, t = 0, 1, ; (1.24)(b)Một chiến lược ngẫu nhiên dừng nếu tồn tại một hàm ϕ ∈ Φ sao cho
πt(·|ht) = ϕ(·|xt), ∀ht ∈ Ht, t = 0, 1, ;
Tập tất cả các chiến lược Markov ngẫu nhiên ký hiệu là ΠRM, tập hợp tất
cả các chiến lược ngẫu nhiên dừng ký hiệu là ΠRS Ghi chú rằng
ΠRS ⊂ ΠRM ⊂ Π
Hơn nữa, π = {πt} ∈ Π được gọi là một
(c)Chiến lược tất định là nếu tồn tại một dãy {gt} mà {gt} là dãy cáchàm số đo đượcgt : Ht → A sao cho với mọiht ∈ Ht và với mọit = 0, 1,
thì gt(ht) ∈ A(xt) và πt(·|ht) trùng gt(ht), tức là
πt(C|ht) = IC[gt(ht)], ∀C ∈ B(A)
(d)Một chiến lược Markov tất định nếu tồn tại một dãy {ft} ∈ F sao cho
πt(·|ht) trùng ft(xt) ∈ A(xt) với mọi ht ∈ Ht và với mọi t = 0, 1, ,
(e)Một chiến lược tất định dừng nếu tồn tại một hàm số f ∈ F sao cho
πt(·|ht) trùng f (xt) ∈ A(xt) với mọi ht ∈ Ht và với mọi t = 0, 1, ,
Trang 16Đặt ΠD, ΠDM, ΠDS lần lượt là tập hợp tất cả các chiến lược xác định,Markov xác định và xác định dừng, khi đó ta có:
ΠDS ⊂ ΠDM ⊂ ΠD ⊂ ΠChú ý 1.4.3
(a) Nếuπ ∈ ΠRM là một chiến lược Markov ngẫu nhiên và{ϕt}là mộthạt nhân ngẫu nhiên thỏa mãn định nghĩa πt(·|ht) = ϕt(.|xt) thì chúng ta
sẽ viết π = {ϕt} thay vì π = {πt}, ngoài ra nếu π ∈ ΠRS và ϕ ∈ Φ thỏamãn πt(·|ht) = ϕ(·|xt) thì chúng ta sẽ viết π thành ϕ∞ Tương tự, nhữngchiến lược được định nghĩa 1.4.2 (c), (d), (e), chúng ta sẽ viết π như {gt};
{ft} và f∞ nếu π thuộc ΠD, ΠDM, ΠDS (Một số tác giả ký hiệu ΠRS với
Φ và ΠDS với F, vì thế họ viết ϕ∞ thay cho ϕ và f∞ thay cho f)
(b) Giả sử F và Φ là những tập đã được định nghĩa 1.4.1 và c là mộthàm giá và Q là một luật chuyển tiếp Chúng ta xác định, với mọi x ∈ X,
Chú ý rằng mỗi hàm số đều đo được với x ∈ X Đó là nguyên nhân chỉ
ra rằng tại sao những hạt nhân ngẫu nhiên đều cần thiết phải đo được,một điều kiện tầm thường thỏa mãn với những không gian đo X và A.Chúng ta sẽ nhắc lại định nghĩa về quá trình Markov với thời gian rờirạc và chỉ ra các kết quả khi sử dụng một chiến lược Markov điều khiểnquá trình Markov
Giả sử {Rt} là một dãy hạt nhân ngẫu nhiên cho trước thuộc P(X|X),
và giả sử {yt} là một X - giá trị ngẫu nhiên của quá trình Thì {yt} đượcgọi là một quá trình Markov không thuần nhất với hạt nhân chuyển {Rt}
nếu với mọi B ∈ B(X) và t = 0, 1, 2, thì
P (yt+1 ∈ B|y0, , yt) = P (yt+1 ∈ B|yt) = Rt(B|yt) (1.27)
Trang 17Phương trình (1.27) được gọi là tính Markov (có thể nói, (1.27) cố định
P- hầu chắc chắn với P là độ đo xác suất trên không gian mà {yt} đượcđịnh nghĩa Tuy nhiên, trừ khi xác định trên một không gian khác, chúng
ta luôn hiểu là "P- hầu chắc chắn" khi quyết định các điều kiện về xácsuất)
Nếu Rt là bất biến đối với hạt nhân ngẫu nhiên cho trước R ∈ P(X|X)
thì dãy {yt} được gọi là một quá trình Markov thuần nhất với hạt nhânchuyển R
Mệnh đề
Giả sử ν là một phân phối ban đầu tùy ý Nếu π = {ϕt} là một chiếnlược Markov ngẫu nhiên (tức là π ∈ ΠRM) thì {xt} là một quá trìnhMarkov không thuần nhất với hạt nhân chuyển {Q(·|·, ϕt)}, có nghĩa làđiều kiện (1.27) trở thành, với B ∈ B(X) và t = 0, 1, thì
Pνπ(xt+1 ∈ B|x0, , xt) = Pνπ(xt+1 ∈ B|xt) = Q(B|xt, ϕt) (1.28)Trên thực tế, nếu π = {ft} ∈ ΠDM là một chiến lược Markov xác định,(1.28) thỏa mãn cho hạt nhân chuyển Q(·|·, ft) Hơn thế, với chiến lượcdừng ϕ∞ ∈ ΠRS và f∞ ∈ ΠDS, thì {xt} là quá trình Markov thuần nhấttheo thời gian với hạt nhân chuyển {Q(·|·, ϕ)} và {Q(·|·, f )}
Chứng minh Giả sử với chiến lược ban đầu tùy ý π = {ϕt}, ta chứngminh:
Pνπ(xt+1 ∈ B|ht) =
Z
A
Q(B|xt, at)πt(dat|ht) (1.29)với mọi B ∈ B(X) và t = 0, 1, Với các tính chất của kỳ vọng điều kiện
Vậy ta chứng minh được (1.29)
Đặc biệt, nếu π = {ϕt} là một chiến lược Markov ngẫu nhiên, π ∈ ΠRM
Trang 18bởi vì công thức (1.26) cách xác định Q(·|x, ϕ) Như vậy, đặt xt0 :=(x0, x1, , xt), khi đó vế trái của (1.28) có thể viết thành:
Trang 19giới thiệu trong định nghĩa 1.3.1, và vấn đề điều khiển chúng ta quan tâm
ở đây là cực tiểu hóa tiêu chuẩn thực hiện với thời gian hữu hạn
Trang 20Giả sử rằng những hàm đó là đo được và với mỗi t = 0, , N − 1, đó làmột hàm chọn ft ∈ F sao cho ft(x) ∈ A(x) đạt được cực tiểu trong (2.5)với mọi x ∈ X; đó là, ∀x ∈ X và t = 0, , N − 1,
Trang 21Điều này chứng minh ở (2.11)
Chú ý 2.2.2 Nhận xét (2.11) và (2.12) đưa ra rằng Jt là hàm giá tối ưu
hàm chọn tùy ý và {πt+1, , πN −1} là một chiến lược tối ưu cho vấn đề từ
t + 1 tới N Khi đó cho (2.14)
Trang 222.3 Điều kiện chọn đo được
là đo được và tồn tại hàm chọn f ∈ F sao cho hàm đạt cực tiểu tại
f (x) ∈ A(x) với mọi x, tức là
(a) Tập hạn chế điều khiển A(x) là compact với mọi x ∈ X
(b) Hàm một giai đoạn c là c(x, ·) là l.s.c ( nửa liên tục dưới) trên A(x)
(b)Chi phí mỗi giai đoạn c là l.s.c và bị chặn dưới
(c) Luật chuyển Q hoặc là:
(c1) Liên tục yếu, tức là, v0(x, a) :=
Z
v(y)Q(dy|x, a) là liên tục
và bị chặn trên K với mỗi hàm liên tục và bị chặn v trên X, hoặc là
(c2) Liên tục mạnh, tức là, v0 là liên tục và bị chặn trên K vớimỗi hàm bị chặn đo được v trên X
Trong điều kiện 2.3.4, chúng ta sử dụng định nghĩa sau đây: Một hàm
v : K → R được gọi là một inf - compact trên K nếu với mỗi x ∈ X và
r ∈ R, tập {a ∈ A(x)|v(x, a) ≤ r} là compact