Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến

xiii DANH MỤC CÁC TỪ VIẾT TẮT Từ viết ANN Artificial Neural Network Mạng thần kinh nhân tạo, được viết tắt là ADP Adaptive Dynamic Programming Qui hoạch động thích nghi, một phương

Trang 1

vii

MỤC LỤC

1.1 Tổng quan về đề tài 1

1.1.1 Khái niệm về học củng cố 1

1.1.2 Lịch sử phát triển của RL trong điều khiển 2

1.2 Động cơ, mục tiêu và nhiệm vụ nghiên cứu 5

1.2.1 Sự cần thiết phải nghiên cứu học củng cố trong điều khiển 5

1.2.2 Tính cấp thiết của đề tài 7

1.2.3 Mục tiêu nghiên cứu 8

1.2.4 Nhiệm vụ nghiên cứu 8

1.3 Đối tượng, phạm vi và phương pháp nghiên cứu 9

1.3.1 Đối tượng và phạm vi nghiên cứu 9

1.3.2 Phương pháp nghiên cứu 11

1.4 Những đóng góp mới của luận án về mặt khoa học 11

1.4.1 Về mặt lý thuyết 11

1.4.2 Về mặt thực tiễn 12

1.5 Bố cục luận án 13

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT 14 2.1 Các định nghĩa 14

2.2 Lý thuyết học củng cố 14

2.3 Các giải thuật học củng cố kinh điển 16

2.3.1 Giải thuật VI (Value Iteration) 16

2.3.2 Giải thuật PI (Policy Iteration) 17

2.3.3 Giải thuật Q-Learning 18

2.4 Xấp xỉ hàm trong RL 19

2.4.1 Sự cần thiết phải sử dụng xấp xỉ hàm trong RL 19

2.4.2 Yêu cầu về xấp xỉ hàm trong RL 20

2.5 Các loại xấp xỉ hàm trong RL, so sánh và đánh giá 21

Trang 2

viii

2.6 Thuộc tính của NN truyền thẳng một lớp 21

2.7 Giải thuật qui hoạch động thích nghi sử dụng xấp xỉ hàm 22

2.8 Tóm tắt 25

CHƯƠNG 3 GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU KHIỂN TỐI ƯU 27 3.1 Học củng cố trong điều khiển tối ưu 28

3.1.1 Mô tả bài toán 28

3.1.2 Phương trình HJB (Hamilton-Jacobi-Bellman) 28

3.2 Phân tích và thiết kế giải thuật học củng cố OADP 31

3.2.1 Cấu trúc điều khiển và luật cập nhật tham số online 31

3.2.2 Giải thuật OADP 34

3.2.3 Phân tích ổn định và hội tụ của giải thuật OADP 35

3.3 Mô phỏng, so sánh và đánh giá 36

3.4 Tóm tắt 41

CHƯƠNG 4 GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU KHIỂN THÍCH NGHI BỀN VỮNG 42 4.1 Học củng cố trong điều khiển thích nghi bền vững 43

4.1.1 Mô tả bài toán 43

4.1.2 Phương trình HJI (Hamilton-Jacobi-Isaacs) 44

4.1.3 Luật điều khiển học củng cố dựa vào nghiệm HJI 46

4.2 Giải thuật ORADP 48

4.2.1 Cấu trúc điều khiển và luật cập nhật tham số 48

4.2.2 Giải thuật ORADP 52

4.3 Phân tích ổn định và hội tụ của giải thuật ORADP 54

4.4 Mô phỏng, so sánh và đánh giá 55

4.5 Tóm tắt 59

CHƯƠNG 5 ÁP DỤNG GIẢI THUẬT ORADP CHO ROBOT DI ĐỘNG 61 5.1 Mô hình phi tuyến của WMR 63

5.2 Mô hình WMR thực nghiệm 67

5.3 Giải thuật ORADP áp dụng cho WMR 72

5.4 Mô phỏng 74

5.4.1 Quỹ đạo tham chiếu 75

5.4.2 Thiết lập tham số học 76

Trang 3

ix

5.4.3 Kết quả mô phỏng 76

5.5 Thực nghiệm 80

5.6 Tóm tắt 86

CHƯƠNG 6 GIẢI THUẬT HỌC CỦNG CỐ ĐIỀU KHIỂN THÍCH NGHI BỀN VỮNG HỢP TÁC NHIỀU HỆ PHI TUYẾN MIMO 88 6.1 Lý thuyết đồ thị và mô hình hợp tác nhiều hệ phi tuyến MIMO 89

6.1.1 Đồ thị truyền thông phân tán 89

6.1.2 Động học nút 90

6.1.3 Mô hình hợp tác nhiều hệ phi tuyến 91

6.2 Phân tích, thiết kế mở rộng giải thuật học củng cố ORADP 95

6.2.1 Học củng cố trong điều khiển hợp tác 95

6.2.2 Cấu trúc điều khiển và luật cập nhật trong ORADP mở rộng 95

6.2.3 Giải thuật ORADP mở rộng 100

6.2.4 Phân tích ổn định và hội tụ của giải thuật ORADP mở rộng 101

6.3 Điều khiển hệ thống robot bầy đàn bằng giải thuật ORADP mở rộng 101

6.3.1 Mô hình hệ thống robot bầy đàn 102

6.3.2 Áp dụng giải thuật và kết quả mô phỏng 105

6.4 Tóm tắt 109

Trang 4

x

DANH MỤC CÁC HÌNH VẼ

Hình 1.1 Minh họa về học củng cố 2

Hình 1.2 Cấu trúc ADP sử dụng hai xấp xỉ hàm trong điều khiển tối ưu 4

Hình 1.3 Cấu trúc ADP sử dụng ba xấp xỉ hàm trong điều khiển tối ưu 𝐻∞ 4

Hình 2.1 Nguyên lý qui hoạch động Bellman và hàm đánh giá tối ưu 16

Hình 3.1 Cấu trúc điều khiển OADP sử dụng một NN 34

Hình 3.2 Trạng thái hệ thống trong quá trình học online sử dụng OADP và AC2NN 38 Hình 3.3 Sự hội tụ của trọng số NN sử dụng OADP và AC2NN 38

Hình 3.5 OADP và AC2NN: Hàm đánh giá tối ưu xấp xỉ 39

Hình 3.4 OADP và AC2NN: (a) Sai số giữa hàm đánh giá tối ưu xấp xỉ và tối ưu lý thuyết; (b) Sai số giữa luật điều khiển tối ưu xấp xỉ và tối ưu lý thuyết 39

Hình 3.6 Hội tụ trọng số NN của giải thuật OADP với giá trị khởi tạo bằng không 40

Hình 3.7 Trọng số NN của giải thuật AC2NN không hội tụ về giá trị tối ưu khi giá trị khởi tạo của trọng số bằng không 40

Hình 4.2 Cấu trúc điều khiển ORADP sử dụng một NN 52

Hình 4.3 Sự hội tụ của trọng số NN hàm đánh giá tối ưu ORADP so với AC3NN 56

Hình 4.4 ORADP và AC3NN: a) Hàm đánh giá tối ưu xấp xỉ; b)Sai số hàm đánh giá tối ưu xấp xỉ và tối ưu lý thuyết 57

Hình 4.5 ORADP và AC3NN: a) Sai số giữa luật điều khiển tối ưu xấp xỉ và tối ưu lý thuyết; b) Sai số giữa luật nhiễu tối ưu xấp xỉ và tối ưu lý thuyết 57

Hình 4.6 Sự mất ổn định và không hội tụ của trọng số NN của giải thuật AC3NN với giá trị khởi tạo bằng không 58

Hình 4.7 Sự ổn định và hội tụ của trọng số NN của giải thuật ORADP với giá trị khởi tạo bằng không 59

Hình 5.1 Mô hình robot di động dạng xe (WMR) 63

Hình 5.2 Mô hình robot thực nghiệm: a) Mặt sau; b) Mặt trước 68

Hình 5.3 Mô hình hệ thống thị giác đa chiều trên robot 69

Hình 5.4 Ảnh không gian thực qua hệ thống thị giác đa chiều 70

Hình 5.5 Xác định tâm robot so với hệ trục cố định 70

Hình 5.6 Sơ đồ điều khiển sử dụng ORADP cho WMR 73

Hình 5.7 Lịch trình thay đổi khối lượng robot trong quá trình điều khiển 75

Hình 5.8 Lịch trình thay đổi mô men quán tính robot trong quá trình điều khiển 76

Hình 5.9 Sự hội tụ của trọng số NN trong quá trình học điều khiển 77

Hình 5.11 Sai số bám vị trí: a) Toàn bộ quá trình; b) Sau khi hội tụ 79

Hình 5.12 Quỹ đạo 𝑥, 𝑦 trong quá trình học điều khiển: a) 𝑥; b) 𝑦 79

Oxy

Trang 5

xi

Hình 5.14 Sai số bám vận tốc: a) Vận tốc quay; b)Vận tốc dài 80

Hình 5.15 Quỹ đạo vận tốc quay: a) Toàn bộ quá trình; b) Sau khi hội tụ 81

Hình 5.16 Quỹ đạo vận tốc dài: a) Toàn bộ quá trình; b) Sau khi hội tụ 81

Hình 5.17 Mô men điều khiển tối ưu: a) Toàn bộ quá trình; b) Sau khi hội tụ 81

Hình 5.18 Quỹ đạo x-y thực nghiệm: a) Toàn bộ quá trình; b) Sau khi hội tụ 82

Hình 5.23 a) Không gian hoạt động; b) Quỹ đạo 𝑥 − 𝑦 của robot so với tham chiếu 85

Hình 5.24 a) Sai số bám vị trí 𝑥, 𝑦, 𝜃 ; b) Sai số bám vận tốc dài 85

Hình 5.25 a) Sai số bám vận tốc góc; b) Mô men điều khiển 85

Hình 6.1 Đồ thị truyền thông của 4 đối tượng phi tuyến 89

Hình 6.2 Cấu trúc ORADP mở rộng điều khiển hợp tác nhiều hệ phi tuyến 100

Hình 6.3 Sơ đồ điều khiển nhiều robot hợp tác sử dụng ORADP mở rộng 105

Hình 6.4 Quá trình hội tụ trọng số NN: a) Robot 1; b) Robot 2; c) Robot 3 107

Hình 6.5 Chất lượng bám vị trí của đội hình: a) Sai số bám; Quỹ đạo bám x-y 107

Hình 6.7 Đồng bộ hóa vị trí y qua các giai đoạn: a) Ban đầu; b) Hội tụ 108

Hình 6.8 Đồng bộ hóa hướng  qua các giai đoạn: a) Ban đầu; b) Hội tụ 108

Hình 6.9 Sai số bám vận tốc giữa các robot: a) Vận tốc dài; b) Vận tốc quay 109

Hình 6.10 Đồng bộ hóa vận tốc dài qua các giai đoạn: a) Ban đầu; b) Hội tụ 109

Hình 6.11 Đồng bộ hóa vận tốc quay qua các giai đoạn: a) Ban đầu; b) Hội tụ 110

Hình 6.12 Mô men điều khiển đội hình robot sau khi hội tụ: a) Sau 100s; b) Hội tụ 110 Hình A.1 Mạng MLP hai lớp ẩn: (a) Cấu trúc; (b) Các thành phần trong một nút 126

Hình A.2 Cấu trúc mạng MLP một lớp ẩn, một đơn vị ngõ ra 127

Hình A.3 Cấu trúc mạng RBF 129

Hình A.4 Cấu trúc mạng RARBF 130

Hình A.5 Sai số bình phương trung bình giữa ngõ ra xấp xỉ và ngõ ra mong muốn của hai mạng MLP có số đơn vị ẩn khác nhau 133

Hình A.6 Sai số bình phương trung bình giữa ngõ ra xấp xỉ và ngõ ra mong muốn của nhóm mạng CMAC 133

Hình A.7 Sai số bình phương trung bình giữa ngõ ra xấp xỉ và ngõ ra mong muốn của nhóm mạng RBF 133

Hình G.1 Tập mẫu ngõ vào đo trong không gian ảnh 151

Hình G.2 Tập mẫu ngõ ra mong muốn đo trong không gian thực 151

Hình G.3 Kết quả huấn luyện RBF so với mẫu mong muốn 152

Hình G.4 Ngõ ra của RBF so với mong muốn biểu diễn theo X (cm)-Y (pixel) 152

Trang 6

xii

DANH MỤC CÁC GIẢI THUẬT VÀ BẢNG BIỂU

Giải thuật 2.1 VI 16

Giải thuật 2.2 PI 17

Giải thuật 2.3 Q-Learning 18

Giải thuật 2.4 ADP sử dụng hai NN cập nhật tuần tự 23

Giải thuật 2.5 ADP sử dụng hai NN cập nhật đồng bộ 23

Giải thuật 2.6 ADP sử dụng ba NN cập nhật tuần tự 24

Giải thuật 2.7 ADP sử dụng ba NN cập nhật đồng bộ 25

Giải thuật 3.1 OADP 34

Giải thuật 4.1 ORADP 53

Giải thuật 5.1 ORADP áp dụng cho WMR 74

Giải thuật 6.1 ORADP mở rộng 100

Bảng 3.1 So sánh chỉ tiêu chất lượng giữa OADP và AC2NN 38

Bảng 3.2 Chỉ tiêu chất lượng khi trọng số của các NN được khởi tạo bằng không 40

Bảng 4.1 So sánh chỉ tiêu chất lượng giữa ORADP và AC3NN 57

Trang 7

xiii

DANH MỤC CÁC TỪ VIẾT TẮT

Từ viết

(A)NN (Artificial) Neural Network Mạng thần kinh (nhân tạo), được viết tắt là

ADP Adaptive Dynamic

Programming

Qui hoạch động thích nghi, một phương pháp học củng cố để xấp xỉ luật điều khiển tối ưu online

ADP2NN ADP with two NNs Cấu trúc điều khiển ADP với hai NN

ADP3NN ADP with three NNs Cấu trúc điều khiển ADP với ba NN

ANN Actor Neural Network NN actor đóng vai trò bộ điều khiển trong

cấu trúc AC

ARE Algebraic Riccati Equation Phương trình đại số Riccati

CMAC Cerebellar Model

Articulation Controller

NN dựa theo mô hình tiểu não

CNN Critic Neural Network NN critic đóng vai trò xấp xỉ hàm đánh giá

trong cấu trúc AC

COD Curse of Dimensionality Sự bùng nổ tổ hợp không gian trạng thái

DP Dynamic Programming Qui hoạch động

LS Least Square Phương pháp bình phương tối thiểu

LQR Linear Quadratic Regulation Điều khiển tối ưu tuyến tính dạng toàn

phương

MIMO Multi Input-Multi Output Hệ thống nhiều đầu vào nhiều đầu ra

Trang 8

xiv

MLP Multi-Layer Perceptron NN truyền thẳng nhiều lớp

NRBF Normalized Radial Basis

án để tìm luật điều khiển tối ưu online

ORADP Online Robust Adaptive

Dynamic Programming

Qui hoạch động thích nghi bền vững online: một giải thuật học củng cố được đề xuất trong luận án để tìm luật điều khiển tối

ưu thích nghi bền vững online

PE Persistence of Excitation

Kích thích hệ thống bằng cách thêm nhiễu vào véc tơ tín hiệu vào/ra PE là điều kiện

để tham số hội tụ trong nhận dạng và điều khiển thích nghi

PI Policy Iteration Giải thuật học củng cố sử dụng một số

bước lặp để xấp xỉ luật điều khiển tối ưu

RL Reinforcement Learning Học củng cố

RBF Radial Basis Function NN có hàm cơ sở xuyên tâm

RARBF Resource Allocating Radial

Sai phân tạm thời: giải thuật cập nhật tham

số của bộ dự báo liên quan đến sai phân tín hiệu theo thời gian sử dụng trong học củng

cố

UUB Uniform Ultimate Boun-ded Bị chặn tới hạn đều

VI Value Iteration Giải thuật học củng cố sử dụng một số

bước lặp để xấp xỉ hàm đánh giá tối ưu

WMR Wheeled Mobile Robot Robot di động dạng xe

ZDGT Zero-sum Differential Game

Theory

Lý thuyết trò chơi sai phân tổng bằng không ứng dụng trong lý thuyết điều khiển tối ưu 𝐻∞

Trang 9

𝑥 Chuẩn của véc tơ 𝑥

𝑥 ∞ Chuẩn vô cùng của véc tơ 𝑥

𝐴 Chuẩn của ma trận 𝐴

𝐴 ∞ Chuẩn vô cùng của ma trận 𝐴

𝑉𝑥 𝑥 Gradient của hàm 𝑉(𝑥) theo 𝑥: 𝑉𝑥 𝑥 =𝜕𝑉(𝑥)

Diag(αi) Ma trận đường chéo chứa các phần tử αi

𝐿2 0, ∞ Không gian Banach, nếu ∀𝑑 ∈ 𝐿2 0, ∞ thì 𝑑 0∞ 2𝑑𝑡 < ∞

sub 𝑥(𝑡) Cận trên nhỏ nhất (cận trên đúng) của 𝑥(𝑡)

inf 𝑥(𝑡) Cận dưới lớn nhất (cận dưới đúng) của 𝑥(𝑡)

𝑊 Ma trận trọng số của NN

𝑤𝑖 Trọng số NN giữa đơn vị ẩn thứ 𝑖 và đơn vị ra (một ngõ ra)

𝑤𝑖𝑗 Trọng số NN kết nối giữa ngõ ra của đơn vị 𝑖 và ngõ vào đơn vị 𝑗

𝑛𝑖, 𝑛𝑕 Lần lượt là số lượng nút ở lớp vào, số lượng nút ở lớp ẩn của NN

𝜙(𝑥) Véc tơ hàm tác động của NN

𝑉 𝑥 Hàm đánh giá

𝑉∗(𝑥) Hàm đánh giá tối ưu

𝑢, 𝑢∗ Véc tơ tín hiệu ngõ vào điều khiển và ngõ vào điều khiển tối ưu

𝑑 Véc tơ nhiễu của hệ thống

𝑥 Véc tơ tín hiệu trạng thái của hệ thống

𝑥0 Véc tơ trạng thái của hệ thống tại thời điểm 𝑡 = 0

Trang 11

Phương pháp RL, đặc biệt hữu ích nếu môi trường thiếu thông tin để ra quyết định chọn hành động Trong trường hợp đó, RL sử dụng phương pháp thử và sai có đánh giá Thông tin hồi tiếp từ môi trường tương ứng với hành động thử sai được đánh giá và lưu trữ Sau đó, dựa vào thông tin lưu trữ, chiến lược chọn hành động tốt hơn được thực hiện để cải thiện chất lượng tương tác với môi trường [18], [56], [68], [71], [96], [100], [112]

Trong điều khiển tối ưu, RL học thích nghi trực tuyến nghiệm HJB dựa vào thông tin vào ra của đối tượng với mục tiêu tối thiểu hàm chi phí cho trước RL được chứng minh là phương pháp điều khiển tối ưu thích nghi trực tiếp [43], [44]-[46], [63] [72]-[73], [84], [92], [96]-[98], [100]-[103], [108]-[113]

Lý thuyết RL kế thừa từ lý thuyết tối ưu của qui hoạch động (Dynamic Programming (DP)) [16] và phát triển thành lý thuyết qui hoạch động thích nghi (Adaptive Dynamic Programming (ADP)) hoặc qui hoạch động xấp xỉ (Approximate Dynamic Programming (ADP)) [35], [38], [39], [43], [53], [60], [61], [72], [73], [84], [92], [98], [109], [113], [114], [120], [128]-[130] ADP đã khắc phục được các hạn chế của DP như off-line, không điều khiển thời gian thực, cần mô hình toán chính xác

Ngoài ra, khi ADP sử dụng xấp xỉ hàm sẽ khắc phục được các điểm yếu quan trọng của

Trang 12

2

Hình 1.1 Minh họa về học củng cố

DP như giảm chi phí tính toán và tài nguyên lưu trữ, khắc phục được hiện tượng bùng

nổ tổ hợp (Curse of Dimensionality (COD)) khi rời rạc hóa không gian trạng thái [88], đặc biệt nếu đối tượng điều khiển là hệ MIMO (Multi Input-Multi Output)

Theo thời gian, các giải thuật RL đã liên tục phát triển Trong [119], dựa vào lý thuyết RL, Werbos đã phát triển giải thuật lặp PI (Policy Iteration) Từ đó đến nay rất nhiều giải thuật PI thời gian thực được nghiên cứu và mở rộng [17]-[19], [43], [56], [71], [73], [98], [100], [113]-[114], [120], [129] Gần đây, các giải thuật lặp PI kết hợp xấp xỉ hàm ADP được nghiên cứu để điều khiển thích nghi tối ưu online cho hệ phi tuyến chứa động học nội (internal dynamics) không biết trước, bỏ qua thủ tục nhận dạng hệ thống [56], [100], [106], [108], [112], [114], [122]-[123], [129]

1.1.2 Lịch sử phát triển của RL trong điều khiển

RL được nghiên cứu, phát triển và ứng dụng mạnh trong lĩnh vực học máy từ những thập niên 1980 [96] Tuy nhiên, đối với lĩnh vực điều khiển, RL chỉ mới thực sự bắt đầu phát triển từ những năm đầu của thế kỷ 21 Lịch sử phát triển của RL trong lĩnh vực điều khiển tạm chia thành ba giai đoạn Trong giai đoạn đầu tiên (trước năm 2005), lý thuyết RL từ lĩnh vực trí tuệ nhân tạo được phát triển mở rộng sang lĩnh vực điều khiển Trước tiên, RL với mô hình Markov được định nghĩa bằng cách rời rạc hóa không gian trạng thái [96] Sau đó, hai giải thuật lặp cơ bản: PI [51], [119] và VI (Value Iteration) [96] được sử dụng để xấp xỉ luật điều khiển hoặc hàm đánh giá tối

ưu Để áp dụng được hai giải thuật này, mô hình toán của hệ thống cần phải xác định trước Một giải thuật khác được đề xuất với luật cập nhật tham số không phụ thuộc vào

mô hình hệ thống, đó là giải thuật dự báo TD (Temporal Difference) [95] Nếu tín hiệu

Tác tử (Agent)

Môi trường

Thông tin Hành động

Bộ nhớ

Trang 13

3

điều khiển được lượng tử hóa cùng với không gian trạng thái, giải thuật Q-Learning [116] được đề nghị Trong Q-Learning luật cập nhật tham số không phụ thuộc vào mô hình hệ thống Tuy nhiên, tất cả các giải thuật nêu trên chỉ áp dụng cho bài toán điều khiển off-line

Một trong những nghiên cứu RL thành công chuyển từ điều khiển off-line sang online trong giai đoạn này là phương pháp qui hoạch động tăng cường (Incremental Dynamic Programming (IDP)) [20], [42] IDP được thiết kế để điều khiển tối ưu thích nghi dựa trên giải thuật Q-learning, xấp xỉ online nghiệm cho bài toán LQR (Linear Quaratic Regulation) rời rạc với các ma trận trạng thái không biết trước Bên cạnh đó, phải kể đến một loạt các nghiên cứu thành công khác, đó là sử dụng xấp xỉ hàm vào cấu trúc ADP để giải quyết vấn đề bùng nổ tổ hợp trong không gian trạng thái rời rạc cho hệ đa biến [88]

Các ứng dụng ADP với xấp xỉ hàm từ đó tiếp tục được phát triển mở rộng [27], [96], [99], [123] Tuy nhiên, hầu hết các nghiên cứu trong giai đoạn này không chứng minh tính ổn định hệ thống trong quá trình học và điều khiển Ngoài ra, luật cập nhật online cho tham số xấp xỉ hàm chưa được thiết kế chặt chẽ Một điểm quan trọng khác đáng lưu ý trong giai đoạn này là RL chỉ được áp dụng cho hệ thống rời rạc Lý do này xuất phát từ thuộc tính rời rạc của qui hoạch động mà RL thừa kế (xem [73] cùng các tài liệu tham khảo trong đó)

Ở giai đoạn thứ hai (từ những năm 2005-2010), các nhà nghiên cứu tập trung vào việc sử dụng lý thuyết điều khiển hiện đại vào RL để thiết kế bộ điều khiển online cho

hệ thống phi tuyến [71] Ngoài ra, do không thể áp dụng phương pháp RL rời rạc cho

hệ thống liên tục nên lý thuyết RL bắt đầu chuyển hướng Giải thuật điều khiển tối ưu thích nghi cho hệ thống tuyến tính liên tục với ma trận trạng thái không biết trước được đề xuất trong [110] với kết quả là nghiệm tối ưu được xấp xỉ online đến nghiệm giải tích ARE (nghiệm giải chỉ tích tồn tại khi biết trước ma trận trạng thái) Trong nghiên cứu này, sự hội tụ và ổn định hệ kín được chứng minh chặt chẽ Song song với

đó là một loạt các nghiên cứu khác về điều khiển tối ưu cho hệ thống phi tuyến rời rạc

và liên tục với thông tin về các thành phần động trong mô hình hoàn toàn biết trước [19], [29], [31], [35], [43], [45], [73], [84]-[85], [92], [98], [101], [108], [113], [130]

Trang 14

4

Hình 1.2 Cấu trúc ADP sử dụng hai xấp xỉ hàm trong điều khiển tối ưu

Hình 1.3 Cấu trúc ADP sử dụng ba xấp xỉ hàm trong điều khiển tối ưu 𝐻∞

Đa số các nghiên cứu trong thời kỳ này sử dụng cấu trúc điều khiển ADP chuẩn (xem (H 1.2) và các định nghĩa trong [56]) với hai xấp xỉ hàm gọi là AC (Actor-Critic), trong đó một xấp xỉ hàm (critic) dùng để đánh giá luật điều khiển và xấp xỉ hàm chi phí tối ưu, xấp xỉ hàm còn lại (actor) dùng để xấp xỉ luật điều khiển tối ưu [56], [57] Luật cập nhật tham số của hai xấp xỉ hàm là online có sự ràng buộc lẫn nhau Thành công của các nghiên cứu trong giai đoạn này là sự ổn định của hệ kín bao gồm các xấp xỉ hàm chứa tham số chỉnh định online được phân tích và chứng minh rất chặt chẽ

Trạng thái/Ngõ ra

Hành động (Tín hiệu điều khiển)

Xấp xỉ hàm (Critic) (Hàm chi phí)

Môi trường (Đối tượng) Xấp xỉ hàm (Actor)

Xấp xỉ hàm (Actor 2)

Chặn trên của nhiễu

Trạng thái /Ngõ ra Xấp xỉ hàm (Critic) (Hàm chi phí)

Xấp xỉ hàm (Actor 1)

Môi trường (Đối tượng) Hành động

(Tín hiệu điều khiển)

Trang 15

5

Giai đoạn thứ ba (từ năm 2010 cho đến nay), lịch sử phát triển về RL liên quan đến bài toán điều khiển tối ưu thích nghi cho hệ phi tuyến chứa một vài thành phần động học hệ thống không biết trước [17]-[19], [38], [58], [61], [63], [66], [71], [80]-[81], [85], [105]-[106], [120]-[121], [128]-[129] Song song với các nghiên cứu vừa nêu là các nghiên cứu về giải thuật RL cho bài toán điều khiển tối ưu 𝐻∞ với hệ tuyến tính có ma trận trạng thái không biết trước [109], hoặc hệ phi tuyến với các thành phần động học trong mô hình hoàn toàn xác định [31], [53], [56], [57], [102]-[103] Đa số các nghiên cứu này đều sử dụng cấu trúc ADP với ba xấp xỉ hàm [43], [67], [84], [123] Một xấp xỉ hàm (Actor 2 trong H 1.3) được thêm vào cấu trúc ADP nhằm xấp

xỉ chặn trên của nhiễu (nhiễu xấu nhất)

Xuất phát từ lý thuyết của RL, nghiên cứu chuyên sâu hơn nữa để phát triển RL

về mặt lý thuyết cũng như thực tiễn là mục tiêu chính trong luận án này

1.2 Động cơ, mục tiêu và nhiệm vụ nghiên cứu

1.2.1 Sự cần thiết phải nghiên cứu học củng cố trong điều khiển

Thiết kế giải thuật điều khiển cho hệ phi tuyến có các thành phần không chắc chắn, nhiễu sai số mô hình, nhiễu ngoài tác động sao cho hệ kín không chỉ ổn định bền vững mà còn tăng cường chất lượng điều khiển là bài toán được rất nhiều nhà nghiên cứu quan tâm Các phương pháp để giải quyết bài toán này là điều khiển thích nghi [62] trong đó phổ biến là nhận dạng gián tiếp hệ thống [77], sau đó thiết kế bộ điều khiển Phương pháp thứ hai là nhận dạng online các thành phần không chắc chắn trong

hệ thống sử dụng các bộ xấp xỉ hàm Do xấp xỉ hàm bị giới hạn bởi một số hữu hạn các tham số nên sai số xấp xỉ là không thể tránh khỏi Sai số này cùng với nhiễu có thể làm cho hệ kín mất ổn định Vì vậy, kết hợp thêm thành phần điều khiển bền vững vào luật điều khiển thích nghi để bù sai số xấp xỉ và nhiễu là cần thiết [24], [69] Tuy nhiên, các phương pháp điều khiển thích nghi hoặc thích nghi bền vững chưa giải quyết triệt để bài toán tối ưu [125]

Thành phần điều khiển bền vững thêm vào sơ đồ điều khiển thích nghi thường có tham số hằng, được thiết kế để hệ kín ổn định bền vững nên thường phải “hy sinh” chất lượng điều khiển Nếu chọn tham số hằng không phù hợp có thể xảy ra các hiện tượng: hệ thống nhanh thích nghi nhưng chất lượng điều khiển không tốt hoặc ngược

Trang 16

6

lại Hệ kín luôn bảo đảm ổn định bền vững nhưng có hiện tượng chattering (hiện tượng biên độ giá trị ngõ vào điều khiển thay đổi giá trị với tần số cao) hoặc ngược lại Nói cách khác, phương pháp điều khiển thích nghi bền vững kinh điển chỉ mang đến sự thỏa hiệp giữa chất lượng điều khiển và khả năng ổn định của hệ thống

Cùng với sự phát triển của lý thuyết điều khiển thích nghi, bền vững, lý thuyết điều khiển tối ưu hiện đại cho hệ phi tuyến là một trong những vấn đề được liên tục nghiên cứu trong nhiều thập kỷ qua Luật điều khiển tối ưu được thiết kế không chỉ ổn định hệ thống mà còn tối thiểu hàm chi phí ràng buộc đến chỉ tiêu chất lượng mong muốn Về mặt toán học, bài toán điều khiển tối ưu được giải nếu nghiệm phương trình Hamilton-Jacobi-Bellman (HJB) được giải Đối với hệ tuyến tính, HJB trở thành phương trình ARE (Algebraic Riccati Equation) Đối với hệ phi tuyến, HJB trở thành phương trình vi phân phi tuyến Với hệ tuyến tính thiếu thông tin về ma trận trạng thái, nghiệm ARE không thể giải được bằng giải tích, với hệ phi tuyến, nghiệm giải tích HJB là rất khó giải, nếu không muốn nói là không thể cho dù biết trước mô hình hệ thống Vì lý do đó, vấn đề xấp xỉ nghiệm HJB được đặt ra

Lý thuyết điều khiển bền vững sử dụng chuẩn 𝐻∞ đóng vai trò rất quan trọng trong phân tích và thiết kế hệ thống [131] Bộ điều khiển tối ưu bền vững 𝐻∞ được thiết kế bằng cách giải phương trình đại số Riccati mở rộng cho hệ tuyến tính [109] và HJI (Hamilton-Jacobi-Isaacs) cho hệ tuyến tính [107] Mặc dù lý thuyết điều khiển hiện đại liên quan đến bài toán điều khiển 𝐻∞ cho hệ phi tuyến [15] nhưng trong nhiều ứng dụng thực tế, vấn đề phức tạp ở chỗ làm thế nào để tìm nghiệm HJI, bởi vì đây là phương trình vi phân phi tuyến không có nghiệm giải tích [100], [122]

Lý thuyết RL là một trong những công cụ mạnh dùng để nghiên cứu và phát triển các giải thuật điều khiển tối ưu bằng cách xấp xỉ online nghiệm HJB và HJI nhằm khắc phục các hạn chế nêu trên [10], [11], [17]-[19], [38], [53], [61]-[58], [63], [66], [71], [81]-[80], [85], [105]-[106], [120]-[122], [128]-[129] Tuy nhiên, trong hầu hết các giải thuật RL, thành phần động học nội trong mô hình hệ phi tuyến đòi hỏi phải xác định trước và nhiễu tác động bị bỏ qua [100], [106] Vì vậy, kết hợp đặc tính thích nghi bền vững vào giải thuật RL để giải bài toán điều khiển tối ưu cho hệ phi tuyến chứa thành phần động không có thông tin xác định, bị tác động bởi nhiễu là cần thiết

Trang 17

7

1.2.2 Tính cấp thiết của đề tài

Chỉ một số rất ít nghiên cứu về giải thuật RL, gần đây, đã kết hợp đặc tính tối ưu

𝐻∞ vào bài toán điều khiển thích nghi bền vững hệ phi tuyến chứa thành phần bất định, chịu tác động bởi nhiễu [10], [53], [103], [112] Các nghiên cứu này sử dụng giải thuật lặp PI dựa vào cấu trúc ADP ba xấp xỉ hàm (H 1.3) Tuy nhiên, với cấu trúc ba xấp xỉ hàm, ADP còn tồn tại một số hạn chế: Tính toán phức tạp, lãng phí tài nguyên, chậm hội tụ, cập nhật tham số giữa các xấp xỉ hàm là tuần tự qua nhiều bước lặp [100], [103]-[106] Ngoài ra, các giải thuật này cần được khởi động bởi các luật điều khiển

ổn định cho trước Điều này làm giảm tính linh hoạt trong thiết kế, bởi vì trong một số ứng dụng đặc biệt, xác định trước luật điều khiển khởi tạo ổn định là điều thách thức Tăng tốc độ hội tụ, tăng tính linh hoạt trong thiết kế bằng cách giảm độ phức tạp tính toán, giảm tài nguyên hệ thống và thiết kế đơn giản luôn là động cơ thúc đẩy để nghiên cứu các giải thuật điều khiển [122], [125] Nếu mỗi xấp xỉ hàm là một mạng thần kinh (Neural Network (NN)), thì với ba xấp xỉ hàm, số lớp ẩn và số đơn vị nút ở lớp ẩn, số lượng hàm tác động sẽ tăng lên theo cấp số nhân, kéo theo số phần tử trong

ma trận trọng số sẽ tăng lên tương ứng Với cấu trúc ADP sử dụng ba NN, đặc biệt khi

áp dụng cho hệ thống đa biến, hồi tiếp đủ trạng thái thì số lượng tham số sẽ tăng lên đáng kể Các trọng số NN phải được liên tục cập nhật trong suốt quá trình học, do đó chi phí tính toán là vấn đề thách thức Khi sử dụng giải thuật PI để xấp xỉ nghiệm online, tốc độ hội tụ của giải thuật ngoài các yếu tố khác còn phụ thuộc rất nhiều vào cấu trúc chọn trước Nếu nhiều xấp xỉ hàm được sử dụng, quá trình tính toán sẽ rất phức tạp, giải thuật chậm hội tụ là điều khó tránh khỏi

Các giải thuật trong [10], [34], [103] ngoài việc đòi hỏi phải biết rõ các hàm thành phần trong phương trình mô tả hệ phi tuyến, trọng số NN còn phải cập nhật trong hai vòng lặp khác nhau, với lý do là phương trình HJI được xấp xỉ tuần tự bởi một loạt các phương trình HJB Thủ tục như vậy sẽ dẫn đến nghiệm của các phương trình bị dư thừa gây lãng phí tài nguyên và cho hiệu quả thấp [122] Ngoài ra, do các xấp xỉ hàm phụ thuộc lẫn nhau, nếu khởi tạo trọng số NN không phù hợp sẽ dẫn đến

hệ kín mất ổn định ngay từ những thời điểm học đầu tiên [100] Hay nói cách khác, tìm luật điều khởi tạo ổn định cho giải thuật là điều bắt buộc

Để khắc phục nhược điểm nêu trên, một số nghiên cứu về RL đề xuất giảm số

Trang 18

8

lượng xấp xỉ hàm trong cấu trúc điều khiển [31], [125] đã đề xuất giải thuật SOLA (Single Online Approximator), trong đó chỉ duy nhất một NN được sử dụng để khắc phục hiện tượng nhiều xấp xỉ hàm Ngoài ra, với SOLA, luật điều khiển ổn định để khởi động cho giải thuật là không cần thiết Tuy nhiên, giải thuật này yêu cầu phải xác định trước thành phần động học nội trong mô hình hệ thống Để kết hợp yếu tố thích nghi trong bài toán điều khiển tối ưu 𝐻∞ liên quan đến nghiệm HJI đồng thời khắc phục luôn hiện tượng dư thừa nghiệm, [122] đã đề xuất giải thuật xấp xỉ online nghiệm HJI sử dụng duy nhất một NN Giải thuật này không cần biết trước và không cần sử dụng thông tin về động học nội trong hệ thống Quá trình cập nhật tham số luật điều khiển và luật nhiễu trong giải thuật này đồng bộ trong cùng một bước lặp, ưu điểm hơn [103] Tuy nhiên, giải thuật này vẫn còn gặp trở ngại, đó là phải ngưng cập nhật các tham số của hệ thống trong một khoảng thời gian đủ lớn để lấy tập mẫu huấn luyện cho lần cập nhật trọng số tiếp theo Ngoài ra, giải thuật này vẫn còn đòi hỏi bộ điều khiển khởi tạo ổn định

1.2.3 Mục tiêu nghiên cứu

Trên cơ sở ưu và nhược điểm của giải thuật học củng cố vừa giới thiệu, mục tiêu nghiên cứu chính trong luận án này là phân tích và thiết kế giải thuật học củng cố mới trong điều khiển thích nghi bền vững cho hệ phi tuyến Giải thuật đáp ứng các yêu cầu:

1 Điều khiển online, tránh thủ tục nhận dạng hệ thống (gián tiếp hoặc trực tiếp)

2 Bảo đảm được hệ kín ổn định bền vững

3 Tối thiểu được hàm chỉ tiêu chất lượng và chỉnh định được các tham số luật điều khiển về giá trị cận tối ưu

4 Giảm được chi phí tính toán và tài nguyên nhằm tăng nhanh tốc độ hội tụ

5 Loại bỏ được yêu cầu về chọn trước luật điều khiển ổn định để khởi động giải thuật

6 Giải thuật càng đơn giản càng tốt

Các mục tiêu trên nhằm cải thiện hơn nữa chất lượng điều khiển, tăng tốc độ hội

tụ, tăng tính linh hoạt trong thiết kế so với các giải thuật học củng cố trước đây

1.2.4 Nhiệm vụ nghiên cứu

Để đạt được mục tiêu nghiên cứu, trong khuôn khổ luận án, một số nhiệm vụ cấp

Trang 19

9

thiết được đặt ra như sau:

a) Nghiên cứu giải thuật học củng cố điều khiển tối ưu cho hệ phi tuyến dựa trên cấu trúc qui hoạch động thích nghi sử dụng hai xấp xỉ hàm (H 1.2) [56], [100], [101] Giải thuật trong luận án chỉ sử dụng một xấp xỉ hàm, khắc phục được sự dư thừa của xấp xỉ hàm so với qui hoặc động thích nghi kinh điển Thiết kế được luật cập nhật tham số online cho xấp xỉ hàm Loại bỏ được yêu cầu phải chọn trước luật điều khiển ổn định để khởi động giải thuật Xây dựng được giải thuật điều khiển và chứng minh được sự hội tụ và ổn định cho toàn hệ thống

b) Nghiên cứu giải thuật học củng cố điều khiển thích nghi bền vững hệ phi tuyến trên nền tảng cấu trúc qui hoạch động thích nghi bền vững sử dụng ba xấp xỉ hàm (H 1.3) [56], [100], [103] Giải thuật trong luận án chỉ sử dụng một xấp xỉ hàm, khắc phục được sự dư thừa của hai xấp xỉ hàm còn lại Thiết kế được luật cập nhật tham số online cho xấp xỉ hàm không sử dụng thông tin về động học nội tránh thủ tục nhận dạng hệ thống Loại bỏ được yêu cầu phải chọn trước luật điều khiển ổn định để khởi động giải thuật Xây dựng được giải thuật điều khiển và chứng minh được sự hội

tụ và ổn định cho toàn hệ thống

c) Kiểm tra được tính hiệu quả của giải thuật đề xuất qua các nội dung: (𝑖) Mô phỏng, so sánh và đánh giá với các giải thuật học củng cố khác trên cùng hệ phi tuyến (𝑖𝑖) Mô phỏng và thực nghiệm trên đối tượng robot di động dạng xe

d) Mở rộng giải thuật học củng cố điều khiển thích nghi bền vững cho bài toán điều khiển hợp tác nhiều hệ phi tuyến MIMO, áp dụng trong mô phỏng đồng bộ hóa đội hình robot bầy đàn

1.3 Đối tượng, phạm vi và phương pháp nghiên cứu

1.3.1 Đối tượng và phạm vi nghiên cứu

Đối tượng điều khiển được xét trong luận án có ba loại Đối tượng thứ nhất cần nghiên cứu là lớp hệ thống phi tuyến có dạng [101]:

trong đó 𝑥 ∈ ℝ𝑛 là véc tơ trạng thái, 𝑢 ∈ ℝ𝑚 là véc tơ tín hiệu điều khiển và 𝑓 𝑥 ∈

ℝ𝑛, 𝑔 𝑥 ∈ ℝ𝑛 ×𝑚 là các hàm phi tuyến khả vi liên tục giả sử biết trước Ngoài ra,

𝑓 0 = 0 và 𝑓 𝑥 , 𝑔 𝑥 giả sử bị chặn [124]-[125] Giả sử này chỉ sử dụng để chứng minh tính ổn định của hệ thống, không sử dụng trong luật điều khiển cũng như luật cập

Trang 20

10

nhật tham số

Giải thuật điều khiển cho đối tượng (1.1) mà luận án nghiên cứu là giải thuật học củng cố điều khiển tối ưu được phát triển trên nền tảng cơ sở lý thuyết qui hoạch động thích nghi sử dụng xấp xỉ hàm

Đối tượng thứ hai cần nghiên cứu tiếp theo là lớp hệ phi tuyến có dạng [122]:

𝑥 = 𝑓 𝑥 + 𝑔 𝑥 𝑢 + 𝑘 𝑥 𝑑

𝑦 = 𝑕(𝑥) (1.2) trong đó 𝑥 ∈ ℝ𝑛 là véc tơ trạng thái, 𝑢 ∈ ℝ𝑚 là véc tơ tín hiệu điều khiển với 𝑢 ∈

𝐿2 0 , ∞ , 𝑑 ∈ ℝ𝑞 là nhiễu thỏa điều kiện 𝑑 ∈ 𝐿2 0 , ∞ , 𝑓 𝑥 ∈ ℝ𝑛 là véc tơ hàm phi tuyến liên tục đặc trưng cho thành phần động học nội hệ thống không biết trước [122],

𝑦 ∈ ℝ𝑝 là ngõ ra mục tiêu, 𝑕(𝑥) ∈ ℝ𝑝, 𝑔 𝑥 ∈ ℝ𝑛 ×𝑚 và 𝑘 𝑥 ∈ ℝ𝑛 ×𝑞 lần lượt là véc

tơ hàm và các ma trận hàm phi tuyến liên tục xác định trước, giả sử bị chặn [31] Giả

sử này chỉ sử dụng để chứng minh tính ổn định của hệ thống, không sử dụng trong luật điều khiển cũng như luật cập nhật tham số

Giải thuật điều khiển cho đối tượng (1.2) mà luận án nghiên cứu là giải thuật học củng cố trong điều khiển thích nghi bền vững được phát triển trên nền tảng cơ sở lý thuyết qui hoạch động thích nghi bền vững sử dụng xấp xỉ hàm

Đối tượng thực nghiệm nhằm kiểm chứng tính hiệu quả của phương pháp học củng cố thích nghi bền vững là lớp hệ phi tuyến thuộc (1.2) Đó là robot di động dạng

xe, một đối tượng phi tuyến chứa thành phần động không thể cấu trúc hóa hoặc mô hình hóa, chịu tác động bởi nhiễu mô men ngõ vào có năng lượng hữu hạn

Đối tượng cuối cùng cần nghiên cứu để mở rộng giải thuật học củng cố trong điều khiển thích nghi bền vững là 𝑁 hệ phi tuyến MIMO hợp tác Mỗi hệ 𝑖, 1 ≤ 𝑖 ≤ 𝑁

có 𝑚 (𝑚 ≥ 2) phương trình phi tuyến:

Trang 21

11

ℝ𝑛 𝑕 ×𝑛 𝑕 +1 lần lượt là các véc tơ và ma trận hàm phi tuyến khả vi liên tục Giả sử rằng toàn bộ trạng thái có sẵn để hồi tiếp và 𝑓𝑖𝑕(𝑥 𝑖𝑕) là động học nội không biết trước Giải thuật điều khiển cho nhiều hệ phi tuyến (1.3) mà luận án nghiên cứu là giải thuật học củng cố điều khiển hợp tác thích nghi bền vững được phát triển mở rộng trên nền tảng giải thuật điều khiển hệ phi tuyến (1.2)

1.3.2 Phương pháp nghiên cứu

Trên cơ sở lý thuyết về RL và tiếp cận đến những kết quả công bố mới nhất về

RL, luận án phân tích ưu nhược điểm của từng giải thuật, tiếp tục nghiên cứu và phát triển nhằm khắc phục các hạn chế còn tồn tại Phương pháp nghiên trong luận án là:

- Nghiên cứu tài liệu tham khảo có liên quan, phân tích và thiết kế hệ thống, tính toán và chứng minh ổn định và hội tụ bằng cơ sở toán học, kết hợp giữa mô phỏng

và thực nghiệm nhằm mục đích kiểm tra tính hiệu quả của lý thuyết

1.4 Những đóng góp mới của luận án về mặt khoa học

So với các công trình nghiên cứu khoa học khác đã công bố cùng lĩnh vực, luận

án này đóng góp thêm các điểm mới về mặt lý thuyết cũng như thực tiễn như sau:

1.4.1 Về mặt lý thuyết

a) Trên cơ sở lý thuyết tổng quan về học củng cố và xấp xỉ hàm [1], [3], [99], luận án nghiên cứu và phát triển giải thuật học củng cố OADP (Online Adaptive Dynamic Programming) điều khiển tối ưu hệ phi tuyến (1.1) Các điểm mới trong giải thuật OADP được thể hiện như sau:

- Cấu trúc điều khiển được đề xuất với duy nhất một xấp xỉ hàm đã khắc phục được hiện tượng dư thừa một xấp xỉ hàm còn lại so với các nghiên cứu khác [18], [80], [101] Cấu trúc này tránh độ phức tính toán nhằm tăng nhanh tốc độ hội tụ

- Luật cập nhật online cho tham số xấp xỉ hàm được phân tích và thiết kế

Trang 22

12

không chỉ bảo đảm hệ kín ổn định mà còn tham số hệ thống hội tụ đến giá trị cận tối

ưu Ngoài ra, yêu cầu về luật điều khiển ổn định để khởi động giải thuật được loại bỏ

- Tham số xấp xỉ hàm và luật điều khiển được cập nhật đồng bộ trong một bước lặp nhằm tăng thêm tốc độ hội tụ, khác với [73], [111]

- Định lý ổn định và hội tụ được phát biểu và chứng minh (Định lý 3.2)

b) Mở rộng giải thuật OADP, phân tích và thiết kế giải thuật học củng cố ORADP (Online Robust Adaptive Dynamic Programming) điều khiển thích nghi bền vững hệ phi tuyến (1.2) với thông tin về động học nội hoàn toàn không biết Các điểm mới trong giải thuật ORADP được thể hiện như sau:

- Cấu trúc điều khiển học củng cố thích nghi bền vững với duy nhất một xấp xỉ hàm được sử dụng, khắc phục được hiện tượng dư thừa hai xấp xỉ hàm so còn lại với các nghiên cứu khác [103], [109] Ưu điểm này dẫn đến độ phức tính toán và tài nguyên mà giải thuật sử dụng sẽ giảm nhiều lần, từ đó tốc độ hội tụ tăng lên

- Luật cập nhật online cho tham số xấp xỉ hàm được phân tích và thiết kế đạt được các mục tiêu chính: bỏ qua thủ tục nhận dạng hệ thống (khác với [18]), không đòi hỏi phải khởi động giải thuật bằng luật điều khiển ổn định (khác với [103], [109]), bảo đảm hệ kín ổn định bền vững và tham số hệ thống hội tụ đến giá trị cận tối ưu

- Tham số xấp xỉ hàm và luật điều khiển được cập nhật đồng bộ trong một bước lặp nhằm tăng thêm tốc độ hội tụ, khác với [103], [109]

- Định lý ổn định và hội tụ được phát biểu và chứng minh (Định lý 4.4)

- Không cần nhận dạng (trực tiếp hoặc gián tiếp) thành phần động học chưa xác định trong mô hình robot

- Tối thiểu được hàm chỉ tiêu chất lượng liên quan đến sai số bám động học, động lực học và năng lượng điều khiển

Trang 23

1 Chương 2: Trình bày cơ sở lý thuyết về học củng cố bao gồm các giải thuật học củng cố kinh điển, các loại xấp xỉ hàm và so sánh giữa các xấp xỉ hàm, các giải thuật qui hoạch động thích nghi sử dụng xấp xỉ hàm, chọn xấp xỉ hàm hợp lý phục

vụ cho bài toán thiết kế ở các chương tiếp theo

2 Chương 3: Phân tích và thiết kế giải thuật học củng cố trong điều khiển tối ưu cho

hệ phi tuyến với nội dung chính như sau:

- Phân tích, thiết kế cấu trúc điều khiển

- Phân tích, thiết kế luật cập nhật tham số xấp xỉ hàm

- Xây dựng giải thuật, chứng minh sự hội tụ và ổn định của hệ kín

3 Chương 4: Phân tích và thiết kế giải thuật học củng cố điều khiển thích nghi bền vững cho hệ phi tuyến với nội dung chính như sau:

- Phân tích và thiết kế cấu trúc điều khiển

- Phân tích và thiết kế luật cập nhật tham số xấp xỉ hàm

- Xây dựng giải thuật, chứng minh sự hội tụ và ổn định của hệ kín

4 Chương 5: Mô phỏng và thực nghiệm robot di động dạng xe sử dụng giải thuật học củng cố thích nghi bền vững

5 Chương 6: Mở rộng giải thuật học củng cố thích nghi bền vững để điều khiển thích nghi bền vững hợp tác nhiều hệ phi tuyến MIMO, kiểm chứng giải thuật qua ứng dụng mô phỏng điều khiển robot bầy đàn hợp tác

Cuối cùng là phần kết luận và hướng phát triển

Trang 24

14

Chương này trình bày tóm lược lý thuyết học củng cố, giới thiệu các giải thuật kinh điển của học củng cố, trình bày cấu trúc và luật học đơn giản của các xấp xỉ hàm thông dụng, phát biểu về sự cần thiết phải sử dụng xấp xỉ hàm trong học củng cố Sau

đó, các loại xấp xỉ hàm được so sánh đánh giá, làm cơ sở cho việc nghiên cứu các giải thuật học củng cố dựa vào xấp xỉ hàm ở các chương tiếp theo

2.1 Các định nghĩa

Định nghĩa 2.1 (Uniform Ultimate Bounded-UUB [74]): Xét hệ thống phi tuyến:

với trạng thái 𝑥(𝑡) ∈ ℝ𝑛 Điểm cân bằng 𝑥𝑐 được gọi là UUB nếu tồn tại một tập đóng

Ω𝑥 ⊂ ℝ𝑛, sao cho với mọi 𝑥 ⊂ Ω𝑥, luôn tồn tại chặn trên 𝐵 và thời gian 𝑇𝐵(𝐵, 𝑥𝑐) để điều kiện 𝑥 𝑡 − 𝑥𝑐 ≤ 𝐵 luôn thỏa với mọi 𝑡 ≥ 𝑡0 + 𝑇𝐵

Định nghĩa 2.2 (Zero-State Observability [55]): Hệ thống (2.1) với ngõ ra đo

được 𝑦 = 𝑕(𝑥) gọi là quan sát được trạng thái không, nếu 𝑦 𝑡 ≡ 0, ∀𝑡 ≥ 0, kéo theo

𝑥 𝑡 ≡ 0

Định nghĩa 2.3 (Điều kiện PE (Persistently Exciting) [55]): Một véc tơ tín hiệu

bị chặn 𝜎 𝑡 được gọi là thỏa điều PE trong khoảng thời gian 𝑡, 𝑡 + 𝑇𝑃 , 𝑇𝑃 > 0 nếu tồn tại 𝛽1 > 0 và 𝛽2 > 0 sao cho với mọi 𝑡:

 Ở mỗi trạng thái 𝑥 ∈ Ω𝑥, có tập hữu hạn các tín hiệu điều khiển 𝑈 𝑥

 Mô hình đối tượng điều khiển 𝑥𝑘+1 = 𝑓(𝑥𝑘, 𝑢(𝑥𝑘)) với 𝑢(𝑥𝑘) ∈ 𝑈 𝑥𝑘 là tín hiệu điều khiển để chuyển trạng thái hệ thống từ 𝑥𝑘 sang 𝑥𝑘 +1

 Hàm thưởng/phạt, còn gọi là tín hiệu củng cố, 𝑟 𝑥𝑘, 𝑢(𝑥𝑘) ∈ ℝ, đặc trưng

Trang 25

15

cho chi phí điều khiển khi áp dụng luật điều khiển 𝑢(𝑥𝑘) ở trạng thái 𝑥𝑘

 Luật điều khiển 𝑢 𝑥 : Ω𝑥 → 𝑈(𝑥) sao cho nếu áp dụng 𝑢 𝑥 từ trạng thái 𝑥0

sẽ phát sinh ra quỹ đạo trạng thái 𝑥0, 𝑥1, 𝑥2, …, thỏa điều kiện: ∀𝑘 = 1, … , 𝑁 −

1, 𝑥𝑘+1 = 𝑓(𝑥𝑘, 𝑢(𝑥𝑘))

 Hàm biểu diễn tổng chi phí cộng dồn xuất phát từ 𝑥0 khi tín hiệu điều khiển

𝑢 𝑥𝑘 được áp dụng dọc theo quỹ đạo trạng thái, ∀𝑥𝑘 ∈ Ω𝑥 được gọi là hàm chỉ tiêu chất lượng hoặc hàm chi phí của 𝑢(𝑥𝑘):

𝐽 𝑥0 = 𝑟(𝑥𝑘, 𝑢(𝑥𝑘))

𝑁 𝑘=0

(2.4)

trong đó 𝛾 ∈ 0, 1 Hàm đánh giá 𝑉 𝑥𝑘 của trạng thái 𝑥𝑘, ∀𝑥𝑘 ∈ Ω𝑥 được định nghĩa dưới dạng hồi qui như sau [96]:

𝑉 𝑥𝑘 = 𝑟(𝑥𝑘, 𝑢(𝑥𝑘)) + 𝛾𝑉 𝑓 𝑥𝑘, 𝑢(𝑥𝑘) (2.5) Mục tiêu của giải thuật học củng cố là tìm hàm đánh giá tối ưu 𝑉∗(𝑥0) tương ứng với luật điều khiển tối ưu 𝑢∗(𝑥), ∀𝑥0 ∈ Ω𝑥:

𝑈 𝑥𝑘 = 𝑢1, 𝑢2, … , 𝑢𝑚 là tập tín hiệu điều khiển ở trạng thái 𝑥𝑘 và 𝑥𝑘+1 =

Trang 26

16

𝑓 𝑥𝑘, 𝑢(𝑥𝑘) là trạng thái kế tiếp tùy theo tín hiệu điều khiển nào được áp dụng Từ

đó, luật điều khiển tối ưu được định nghĩa:

Hình 2.1 Nguyên lý qui hoạch động Bellman và hàm đánh giá tối ưu

2.3 Các giải thuật học củng cố kinh điển

Các giải thuật học củng cố kinh điển mô tả sau đây xấp xỉ hàm đánh giá và luật điều khiển tối ưu Mặc dù các giải thuật này chỉ điều khiển off-line nhưng đó là nền tảng cơ sở để nghiên cứu mở rộng cho các giải thuật online nâng cao trong luận án

2.3.1 Giải thuật VI (Value Iteration)

Giải thuật VI sau đây mô tả chi tiết các bước xấp xỉ trực tiếp hàm đánh giá tối ưu

𝑉∗ 𝑥𝑘 Khi có 𝑉∗ 𝑥𝑘 , luật điều khiển tối ưu 𝑢∗ 𝑥 được xấp xỉ [96]

Trang 27

Bước 3: Xấp xỉ luật điều khiển tối ưu:

2.3.2 Giải thuật PI (Policy Iteration)

Giải thuật PI khởi động sử dụng luật điều khiển ổn định, sau đó xấp xỉ hàm đánh giá trong một bước và cải thiện luật điều khiển dựa vào hàm đánh giá vừa xấp xỉ ở bước tiếp theo [96] Các bước trong giải thuật PI được mô tả như sau:

Trang 28

18

Ta thấy rằng, từ phương trình (2.9) đến (2.12), Giải thuật 2.1 và 2.2 đòi hỏi thông tin về mô hình hệ thống 𝑓 𝑥𝑘, 𝑢(𝑥𝑘) , điều này làm giảm khả năng ứng dụng của học củng cố Hạn chế này được giải quyết bằng giải thuật dự báo sai phân tạm thời (Temporal Difference (TD)) [95] Khi đó, luật cập nhật (2.11) sẽ là:

𝑉(𝑖) 𝑥𝑘 = 𝑉(𝑖−1) 𝑥𝑘 + 𝛼 𝑟 𝑥𝑘, 𝑢(𝑖)(𝑥𝑘) + 𝛾𝑉(𝑖−1) 𝑥𝑘+1 − 𝑉(𝑖−1) 𝑥𝑘 (2.13) trong đó 𝑥𝑘+1 là trạng thái mà hệ thống nhận được khi áp dụng luật điều khiển 𝑢(𝑖) tại

𝑥𝑘, 𝛼 ∈ (0,1] là tốc độ học Nhìn vào phương trình (2.13) ta thấy rằng hàm đánh giá được cập nhật không cần sử dụng mô hình của hệ thống Sau khi 𝑉(𝑖) 𝑥𝑘 ở (2.13) được cập nhật, luật điều khiển 𝑢(𝑖+1) ở Bước 4 của giải thuật 2.2 được cập nhật ngay

mà không mà không cần phải chờ đợi sự hội tụ của hàm đánh giá ở Bước 3 Giải thuật

PI sử dụng luật cập nhật TD, bảo đảm rằng luật điều khiển xấp xỉ sẽ hội tụ đến giá trị tối ưu [51] Tuy nhiên, TD chỉ sử dụng được trong các giải thuật off-line

2.3.3 Giải thuật Q-Learning

Thay vì xấp xỉ hàm 𝑉 𝑥𝑘 như giải thuật VI hoặc PI, giải thuật 𝑄-Leanring xấp

xỉ hàm 𝑄(𝑥𝑘, 𝑢𝑘) chứa tổ hợp biến trạng thái và tín hiệu điều khiển ứng, trong đó ở mỗi bước lặp, luật cập nhật hàm 𝑄(𝑥𝑘, 𝑢𝑘) được định nghĩa dựa vào luật TD [115]:

𝑄(𝑙+1) 𝑥𝑘, 𝑢𝑘 = 𝑄(𝑙) 𝑥𝑘, 𝑢𝑘

+𝛼 𝑟 𝑥𝑘, 𝑢𝑘 + 𝛾 argmin

∀𝑎∈𝑈(𝑥𝑘+1)

𝑄(𝑙) 𝑥𝑘+1, 𝑎 −𝑄(𝑙) 𝑥𝑘, 𝑢𝑘 (2.14) trong đó 𝛼 ∈ 0, 1 là tốc độ học Khi 𝑄(𝑥𝑘, 𝑢𝑘) hội tụ về hàm đánh giá tối ưu

𝑄∗ 𝑥𝑘, 𝑢𝑘 , luật điều khiển tối ưu sẽ là:

𝑢𝑘∗ = argmin

∀𝑢 𝑘 ∈𝑈(𝑥 𝑘 )

Giải thuật 2.3 Q-Learning

Bước 1: Rời rạc hóa không gian trạng thái để có tập Ω𝑥, lượng tử hóa tín hiệu điều khiển để có tập 𝑈(𝑥𝑘) ∀𝑥𝑘 ∈ Ω𝑥 , ∀𝑢𝑘 ∈ 𝑈(𝑥𝑘) khởi tạo 𝑄 𝑥𝑘, 𝑢𝑘 = 0

Bước 2: Xấp xỉ hàm đánh giá 𝑄:

 𝑙 ← 𝑙 + 1

 Vòng lặp ngoài ∀𝑥𝑘 ∈ Ω𝑥:

 Lặp vòng trong ∀𝑢𝑘 ∈ 𝑈(𝑥𝑘):

Trang 29

2.4 Xấp xỉ hàm trong RL

2.4.1 Sự cần thiết phải sử dụng xấp xỉ hàm trong RL

Trong Giải thuật 2.1 và 2.2, ở mỗi bước lặp, hàm 𝑉 𝑥𝑘 phải được cập nhật và lưu trữ với mọi trạng thái 𝑥𝑘, và trong Giải thuật 2.3, ở mỗi bước lặp, hàm 𝑄 𝑥𝑘, 𝑢𝑘 được cập nhật và lưu trữ với mọi tổ hợp 𝑥𝑘 và 𝑢𝑘 Do đó, nếu áp dụng các giải thuật này trong điều khiển sẽ tồn tại một số hạn chế sau:

- Chỉ áp dụng được cho hệ thống với số lượng hữu hạn các điểm giá trị trạng thái và tín hiệu điều khiển rời rạc Trong trường hợp hệ thống với không gian trạng thái và tín hiệu điều khiển liên tục, có vô số điểm giá trị cần rời rạc thì chi phí tính toán không cho phép các giải thuật trên lặp qua toàn bộ các điểm này để cập nhật và lưu trữ hàm đánh giá một cách tường minh

- Với giải thuật Q-learning, chi phí lưu trữ và tính toán tăng theo hàm mũ (𝛺𝑥 𝑈(𝑥) ) giữa số lượng các điểm trong không gian trạng thái với số lượng tín hiệu điều khiển phân rã ở mỗi trạng thái Điều này dẫn đến việc bùng nổ tổ hợp

- Đối với hệ thống nhiều ngõ vào ra, cấu trúc dữ liệu lưu trữ đòi hỏi mảng hoặc

Trang 30

20

ma trận đa chiều, khó có thể xử lý dữ liệu với kích cỡ mỗi chiều lớn hàng trăm

Sẽ giảm được chi phí tính toán nếu giá trị hàm ở các điểm trong không gian trạng thái chưa được cập nhật có thể nội suy được từ giá trị hàm của những điểm lân cận đã được cập nhật Xấp xỉ hàm là một trong những công cụ hữu hiệu có thể giải quyết được vấn đề này [99], [123] Ngoài ra, khi sử dụng xấp xỉ hàm thì tài nguyên lưu trữ không còn là vấn đề thách thức bởi vì lưu trữ tường minh hàm đánh giá của từng điểm trạng thái riêng biệt là điều không cần thiết

2.4.2 Yêu cầu về xấp xỉ hàm trong RL

Trong học củng cố người ta quan tâm đến các xấp xỉ hàm [1], [99] thỏa mãn yêu cầu:

- Khả năng xấp xỉ luật điều khiển cho các trạng thái liên tục chưa được cập nhật

từ các trạng thái đã được cập nhật mà không cần thiết phải rời rạc hoá không gian trạng thái và đi qua mọi quỹ đạo trạng thái

- Cấu trúc càng đơn giản càng tốt

- Tham số bộ xấp xỉ hàm được cập nhật online từ các trạng thái hồi tiếp, không

có tín hiệu đúng, sai mong muốn để điều chỉnh như phương pháp học giám sát

- Thông tin học trong quá khứ phải được đánh giá và lưu trữ càng nhiều càng tốt

để cải thiện kết quả ở tương lai, tuy nhiên tài nguyên lưu trữ càng nhỏ càng tốt

- Có khả năng xấp xỉ cục bộ để nâng cao hiệu quả tính toán

Đến nay đã có nhiều nghiên cứu và ứng dụng về xấp xỉ hàm Thành công và thất bại của mỗi loại còn tùy thuộc vào từng bài toán điều khiển cụ thể và cách chọn trước các thông số và cấu trúc ban đầu cho từng bộ xấp xỉ cũng như cách thiết kế luật cập nhật sao cho tham số bộ xấp xỉ không chỉ hội tụ mà còn đảm bảo hệ kín luôn ổn định trong quá trình học và điều khiển online

Phương pháp xấp xỉ bình phương tối thiểu (Least Square (LS)) tuy đơn giản nhưng thiếu khả năng xấp xỉ so với phương pháp “hộp đen” như NN Brartke và Barto [3] đã áp dụng giải thuật sai phân tạm thời (TD) cho LS để tạo ra giải thuật học LSTD Tuy nhiên, sau khi hàm đánh giá được học, luật điều khiển không thể cải thiện tốt hơn nữa nếu mô hình hệ thống động không có sẵn Stephan Ten Hagen [4] đã kết hợp giải thuật Q-learning với NN truyền thẳng để học điều khiển hệ thống với không gian trạng

Trang 31

21

thái liên tục Tuy nhiên, để xấp xỉ luật điều khiển hồi tiếp phi tuyến tối ưu, cần phải có sẵn bộ điều khiển LQR nhằm thu thập mẫu huấn luyện, và NN bị ràng buộc phải duy trì giá trị các trọng số giữa lớp ẩn và lớp ra đủ nhỏ trong suốt quá trình học

2.5 Các loại xấp xỉ hàm trong RL, so sánh và đánh giá

Các loại xấp xỉ hàm sử dụng NN [1] được trình bày trong Phụ lục A là cơ sở để thiết kế giải thuật RL dựa vào xấp xỉ hàm, trong đó cấu trúc và luật cập nhật trọng số cho các loại xấp xỉ hàm khác nhau được giới thiệu, bao gồm nhóm xấp xỉ hàm truyền thẳng nhiều lớp MLP (Multi-Layer Perceptron), nhóm xấp xỉ hàm cơ sở xuyên tâm RBF (Radial Basis Function) với các phiên bản khác nhau như: RBF chuẩn hóa NRBF (Normalized Radial Basis Function), RBF cấp phát tài nguyên động RARBF (Resource Allocating Radial Basis Function) và RBF thích nghi chuẩn hóa (Adaptive NANRBF Normalized Radial Basis Function), và cuối cùng là nhóm xấp xỉ hàm mô phỏng theo mô hình tiểu não CMAC (Cerebellar Model Articulation Controller) Trong Phụ lục A, khả năng xấp xỉ của mỗi nhóm xấp xỉ hàm được so sánh theo các tiêu chí: sai số, tốc độ hội tụ, tài nguyên lưu trữ và chi phí tính toán nhằm tìm ra loại xấp xỉ hàm phù hợp cho nghiên cứu tiếp theo Kết quả so sánh cho thấy rằng xấp

xỉ hàm MLP mặc dù chậm hội tụ nhưng cấu trúc đơn giản, tính toán không phức tạp, đặc biệt là tài nguyên lưu trữ rất nhỏ so với các xấp xỉ hàm còn lại Đó là lý do tại sao, hầu hết các giải thuật RL gần đây đều sử dụng loại xấp xỉ hàm này, đặc biệt là NN truyền thẳng sử dụng cấu trúc một lớp thể hiện trên H A.2 [43], [67], [84], [123], nhằm tránh sử dụng giải thuật lan truyền ngược không hiệu quả về tốc độ hội tụ Cốt lõi của vấn đề là luật cập nhật off-line của xấp xỉ hàm này không còn phù hợp để điều khiển online Vì vậy, bài toán thiết kế mới luật cập trọng số online được đặt ra

Một số thuộc tính cần thiết của xấp xỉ hàm truyền thẳng một lớp được trình bày sau đây nhằm phục vụ cho việc thiết kế giải thuật online ở những chương tiếp theo

2.6 Thuộc tính của NN truyền thẳng một lớp

Với xấp xỉ hàm truyền thẳng sử dụng NN một lớp ẩn có cấu trúc trên H A.2, ta

có các định nghĩa và tính chất sau:

Định nghĩa 2.4: Chuỗi hàm 𝑓𝑘(𝑥) được gọi là hội tụ đều đến 𝑓(𝑥) trong tập đóng Ω𝑥 nếu ∀ε > 0, ∃𝑁 𝜀 : sup𝑥∈Ω 𝑓𝑛 𝑥 − 𝑓(𝑥) < 𝜀

Trang 32

22

Định lý xấp xỉ bậc cao Weierstrass (Weierstrass higher-order approximation Theorem) trong [37] và kết quả trong [48] phát biểu rằng luôn tồn tại tập cơ sở độc lập hoàn toàn (complete independent basis set) 𝜙(𝑥) để hàm khả vi liên tục 𝑓(𝑥) và gradient của nó được xấp xỉ đều (uniformly approximated), đó là tồn tại các hệ số 𝑤𝑖:

𝑓 𝑥 = 𝑤𝑖𝜙𝑖(𝑥)

∞ 𝑖=1

𝑓 𝑥 = 𝑊1𝑇𝜙(𝑥) + 𝑤𝑖𝜙𝑖(𝑥)

∞ 𝑖=𝑛𝑕+1

(2.19)

trong đó, 𝜙 𝑥 = 𝜙1 𝑥 , 𝜙2 𝑥 , … , 𝜙𝑛𝑕(𝑥) 𝑇 ∈ ℝ𝑛𝑕, 𝑊1 = 𝑤1, 𝑤2, … , 𝑤𝑛𝑕 𝑇 ∈ ℝ𝑛𝑕 Các số hạng cuối bên vế phải của phương trình (2.18) và (2.19) hội tụ đều về không khi 𝑛𝑕 → ∞ (Đặc biệt nếu tập cơ sở là trù mật (dense) trong chuẩn Sobolev 𝕎1,∞[12]) Vậy, nếu sử dụng NN để xấp xỉ hàm, ta có thể biểu diễn:

sẽ bị chặn bởi các hằng số dương trong tập đóng [48]

2.7 Giải thuật qui hoạch động thích nghi sử dụng xấp xỉ hàm

Để xấp xỉ luật điều khiển online trong giải thuật PI, các nghiên cứu [43], [67], [84], [123] (xem thêm các tài liệu tham khảo trong đó) đề xuất cấu trúc ADP (còn gọi

là cấu trúc AC) sử dụng hai hoặc ba xấp xỉ hàm (H 1.2 hoặc H 1.3) Các xấp xỉ hàm trong ADP chủ yếu là các NN truyền thẳng một lớp có Thuộc tính 2.1 NN thứ nhất

Trang 33

23

đóng vai trò critic (Critic Neural Network (CNN)) dùng để xấp xỉ online hàm đánh giá tối ưu, các NN còn lại đóng vai trò actor (Actor Neural Network (ANN)) xấp xỉ luật điều khiển tối ưu (2.8) Luật cập nhật tham số của các NN phụ thuộc lẫn nhau ANN cập nhật trọng số sử dụng tín hiệu từ CNN Cấu trúc hai NN này đã được sử dụng trong bài toán điều khiển hệ phi tuyến với ngõ vào ràng buộc bão hòa [2], [3]

Giải thuật cập nhật các xấp xỉ hàm ADP trong điều khiển tối ưu cho hệ phi tuyến (1.1) có hai loại: Trọng số các NN cập nhật tuần tự ở hai bước lặp khác nhau [108]- [110] hoặc trọng số NN cập nhật đồng bộ trong một bước lặp [100], [101], [106] Hai loại giải thuật này được trình như sau

Giải thuật 2.4 ADP sử dụng hai NN cập nhật tuần tự

Bước 1: Khởi tạo tham số xấp xỉ hàm cho CNN và ANN, xấp xỉ hàm đánh giá 𝑉(0) dựa vào CNN và luật điều khiển 𝑢0 dựa vào ANN, gán 𝑙 = 0

Bước 2: Cập nhật tham số cho hàm đánh giá:

 Sử dụng 𝑢(𝑙) điều khiển hệ thống thu thập mẫu dữ liệu để cập nhật trọng số cho CNN

 Xác định hàm đánh giá 𝑉(𝑙+1) dựa vào CNN

Bước 3: Cập nhật tham số cho luật điều khiển:

 Cập nhật ANN dựa vào gradient của 𝑉(𝑙+1)

 Xác định luật điều khiển 𝑢(𝑙+1) dựa vào ANN

Bước 4: Xác định điều kiện kết thúc giải thuật: Nếu thỏa tiêu chuẩn hội tụ 𝑉(𝑙)−

𝑉(𝑙+1) ≤ 𝛿 với 𝛿 là số dương đủ nhỏ thì kết thúc giải thuật, ngược lại gán 𝑙 ← 𝑙 + 1

quay về Bước 2

Giải thuật 2.5 ADP sử dụng hai NN cập nhật đồng bộ

Bước 1: Khởi tạo tham số xấp xỉ hàm cho CNN và ANN, xấp xỉ hàm đánh giá 𝑉(0) dựa vào CNN và luật điều khiển 𝑢(0) dựa vào ANN, gán 𝑙 = 0

Bước 2: Cập nhật tham số:

 Cập nhật trọng số CNN và ANN

 Xác định hàm đánh giá 𝑉(𝑙+1) dựa vào CNN, và 𝑢(𝑙+1) dựa vào ANN

Trang 34

24

Giải thuật 2.4 và 2.5 sử dụng hai NN Sau đây là các giải thuật ADP sử dụng ba

NN (CNN, ANN1, ANN2) để giải bài toán điều khiển tối ưu 𝐻∞ cho hệ phi tuyến, trong đó thời điểm cập nhật trọng số NN về cơ bản khác với hai giải thuật nêu trên Tùy theo cách cập nhật, ta chia thành hai loại: Hoặc trọng số CNN, ANN1 và ANN2 được cập nhật tuần tự ở ba bước lặp khác nhau [109], [112] (Giải thuật 2.6) hoặc trọng

số CNN cập nhật đồng bộ với ANN1 nhưng ANN2 lại cập nhật tuần tự trong một bước lặp khác [103], [104], [100] (Giải thuật 2.7)

Giải thuật 2.6 ADP sử dụng ba NN cập nhật tuần tự

Bước 1: Khởi tạo tham số xấp xỉ hàm cho CNN và ANN1, ANN2, xấp xỉ hàm đánh giá

𝑉(0) dựa vào CNN và luật điều khiển 𝑢(0) dựa vào ANN1, luật nhiễu xấu nhất 𝑑(0) dựa vào ANN2, gán 𝑙 = 0

Bước 2: Cập nhật tham số cho hàm đánh giá:

 Sử dụng 𝑢(𝑙) và 𝑑(𝑙) điều khiển hệ thống thu thập mẫu dữ liệu để cập nhật trọng số CNN

 Xấp xỉ hàm đánh giá 𝑉(𝑙+1) dựa vào CNN

Bước 3: Cập nhật tham số cho luật điều khiển:

 Cập nhật trọng số ANN1 dựa vào gradient của 𝑉(𝑙+1) cho đến khi hội tụ

 Xác định luật điều khiển 𝑢(𝑙+1) dựa vào ANN1

Bước 4: Cập nhật tham số cho luật nhiễu:

 Xác định luật nhiễu 𝑑(𝑙+1) dựa vào ANN2

Trang 35

25

Giải thuật 2.7 ADP sử dụng ba NN cập nhật đồng bộ

Bước 1: Khởi tạo tham số xấp xỉ hàm cho CNN và ANN1, ANN2, xấp xỉ hàm đánh giá

𝑉(0) dựa vào CNN và luật điều khiển 𝑢(0) dựa vào ANN1, luật nhiễu xấu nhất 𝑑(0) dựa vào ANN2, gán 𝑙 = 0

Bước 2: Cập nhật tham số hàm đánh giá và luật điều khiển:

 Cập nhật đồng thời trọng số CNN và ANN1 cho đến khi ANN1 hội tụ

 Tính hàm đánh giá 𝑉(𝑙+1)dựa vào CNN, 𝑢(𝑙+1) dựa vào ANN1

Bước 3: Cập nhật tham số luật nhiễu:

 Tính 𝑑(𝑙+1) dựa vào ANN2

Các giải thuật cập nhật đồng bộ 2.5 hoặc 2.7 được chứng minh là hiệu quả hơn so với các giải thuật cập nhật tuần tự 2.4 hoặc 2.6 về tốc độ hội tụ [100] Vì vậy, các giải thuật cập nhật đồng bộ được chọn để phục vụ cho việc nâng cấp mở rộng các giải thuật học củng cố trong Luận án Tuy nhiên, tất cả các giải thuật nêu trên sử dụng nhiều hơn một NN, do đó chi phí cập nhật và tài nguyên lưu trữ, tốc độ hội tụ vẫn còn là vấn đề thách thức, đặc biệt nếu NN có nhiều ngõ vào và cấu trúc nhiều nút ẩn Vì vậy, rút gọn bớt số lượng NN trong các giải thuật là một trong những hướng nghiên cứu quan trọng cần thực hiện tiếp theo

2.8 Tóm tắt

Lý thuyết cơ sở về RL được giới thiệu trong chương này RL kế thừa lý thuyết

DP để phát triển thành phương pháp ADP giải bài toán điều khiển tối ưu Các giải thuật cơ bản PI và VI cũng được giới thiệu Các giải thuật này thực hiện off-line và đòi hỏi phải hệ thống phải có sẵn mô hình toán chính xác Ngược lại, giải thuật Q-Learning khắc phục nhược điểm phụ thuộc mô hình Tuy nhiên, Q-Learning liên quan đến tổ hợp trạng thái rời rạc và tín hiệu điều khiển được lượng tử hóa Điều này gây ra

Trang 36

26

hiện tượng bùng nổ tổ hợp và phụ thuộc vào kinh nghiệm người thiết kế Do đó, Learning không đáp ứng được các ứng dụng điều khiển online trong thực tế với không gian trạng thái và tín hiệu điều khiển liên tục

Q-Lý do sử dụng xấp xỉ hàm trong RL được đề cập Từ đó, các loại NN sử dụng cho xấp xỉ hàm được giới thiệu, so sánh và đánh giá NN truyền thẳng một lớp có cấu trúc đơn giản, tính toán không phức tạp, đặc biệt là tài nguyên lưu trữ rất thấp so với các xấp xỉ hàm MLP, RBF, NRBF, RARBF, ANRBF và CMAC

Trong cấu trúc ADP, NN truyền thẳng một lớp thường được sử dụng Nếu thiết

kế luật cập nhật trọng số và giải thuật phù hợp, NN này có thể trở thành bộ điều khiển online Đến nay, tồn tại hai loại giải thuật học củng cố để cập nhật trọng số online cho

NN này Giải thuật ADP trong điều khiển tối ưu cập nhật trọng số đồng bộ trong một bước lặp, tuần tự trong hai bước lặp Trong khi đó, giải thuật ADP trong điều khiển tối

ưu 𝐻∞ cập trọng số đồng bộ trong hai bước lặp hoặc tuần tự trong ba bước lặp Tuy nhiên, các giải thuật ADP sử dụng nhiều NN làm cho quá trình tính toán phức tạp và lãng phí tài nguyên gây giảm tốc độ hội tụ

Sau khi nghiên cứu tổng quan về cơ sở lý thuyết RL, các giải thuật học củng cố trên nền tảng lý thuyết qui hoạch động thích nghi sẽ được phân tích và thiết kế ở các chương tiếp theo

Trang 37

Để khắc phục hạn chế nêu trên, nhiều giải thuật xấp xỉ nghiệm ARE hoặc HJB online dựa trên lý thuyết cơ sở của RL đã được đề xuất Các nghiên cứu [42], [49],[56], [98], [110] thực hiện bài toán xấp xỉ thích nghi online nghiệm ARE cho hệ tuyến tính liên tục và rời rạc với các ma trận trạng thái không biết, trong khi đó [30]-[32], [38], [53], [56], [84], [92], [101], [113], [128]-[129] xấp xỉ thích nghi online nghiệm HJB cho hệ phi tuyến Các phương pháp này sử dụng giải thuật PI với cấu trúc ADP chuẩn gồm hai xấp xỉ hàm, đó là hai NN truyền thẳng [57], [101] Luật cập nhật trọng số NN trong các phương pháp này được chứng minh ổn định UUB trong quá trình xấp xỉ online cùng với hàm chi phí và luật điều khiển hội tụ về giá trị cận tối ưu Trong số các giải thuật cập nhật trọng số NN, đáng chú ý nhất là PI cập nhật đồng bộ, trong đó tốc độ hội tụ đã được cải thiện đáng kể [100], [101] Tuy nhiên, sử dụng hai xấp xỉ hàm, chi phí tính toán và tài nguyên lưu trữ vẫn còn là vấn đề thách thức

Để khắc phục hạn chế sử dụng nhiều xấp xỉ hàm trong cấu trúc điều khiển, chương này đề xuất giải thuật học củng cố qui hoạch động thích nghi online (OADP) với cấu trúc điều khiển chỉ sử dụng duy nhất một xấp xỉ hàm Điều quan trọng là luật cập nhật tham số và giải thuật điều khiển sẽ được thiết kế phù hợp để đạt được các mục tiêu đặt ra, đó là tốc độ hội tụ nhanh hơn so với [100], [101], trong khi nghiệm HJB vẫn được xấp xỉ và hệ kín luôn duy trì ổn định

Trang 38

28

3.1 Học củng cố trong điều khiển tối ƣu

3.1.1 Mô tả bài toán

Xét lớp hệ thống phi tuyến mô tả bởi:

𝑥 𝑡 = 𝑓 𝑥 𝑡 + 𝑔 𝑥 𝑡 𝑢 𝑥 𝑡 (3.1) trong đó 𝑥 ∈ ℝ𝑛 là véc tơ trạng thái, 𝑢 ∈ ℝ𝑚 là véc tơ tín hiệu điều khiển và 𝑓 𝑥 ∈

ℝ𝑛, 𝑔 𝑥 ∈ ℝ𝑛 ×𝑚 là véc tơ và ma trận hàm phi tuyến khả vi liên tục giả sử biết trước

Giả thiết 3.1: Cho trước tập Ω𝑥 ⊆ ℝ𝑛 chứa gốc 0, tồn tại 𝑓(0) = 0 và 𝑓 𝑥 +

𝑔 𝑥 𝑢 𝑥 liên tục Lipschitz trên Ω𝑥; Tồn tại luật điều khiển liên tục 𝑢 𝑡 để hệ kín (3.1) ổn định tiệm cận trên Ω𝑥

Giả thiết 3.2: 𝑔𝑚𝑖𝑛 ≤ 𝑔 𝑥 ≤ 𝑔𝑚𝑎𝑥, trong đó 𝑔𝑚𝑖𝑛 và 𝑔𝑚𝑎𝑥 là các hằng số dương

Chú ý 3.1: Giả thiết 3.2 thỏa với hầu hết các đối tượng phi tuyến có trong thực tế

[124]-[125], đặc biệt trong lĩnh vực robot luôn tồn tại các ma trận ngõ vào (ma trận khối lượng) xác định dương và bị chặn [32], [36], [82] Giả thiết này chỉ sử dụng trong chứng minh ổn định hệ thống, không sử dụng trong luật điều khiển và luật cập nhật trọng số NN Vì vậy, tìm phương pháp xác định chặn trên và dưới của 𝑔 𝑥 là không cần thiết

Mục tiêu của bài toán học củng cố trong điều khiển tối ưu [100], [101]: Với một tập luật điều khiển hồi tiếp trạng thái 𝑈 𝑥 ∈ Ω𝑢 ⊆ ℝ𝑚, liên tục trong Ω𝑥 và 𝑈 0 =0, tìm luật điều khiển tối ưu 𝑢 𝑡 = 𝑢∗ 𝑥(𝑡) ∈ 𝑈 𝑥 ổn định hệ kín (3.1) trên Ω𝑥 đồng thời cực tiểu phiếm hàm chỉ tiêu chất lượng ràng buộc bởi (3.1)

3.1.2 Phương trình HJB (Hamilton-Jacobi-Bellman)

Định nghĩa hàm chỉ tiêu chất lượng [101]:

𝐽(𝑥 0 ) = 𝑟 𝑥(𝑡), 𝑢(𝑡) 𝑑𝑡

∞ 0

trong đó

với 𝑥 = 𝑥 𝑡 , 𝑢 = 𝑢 𝑡 , 𝑄 𝑥 là hàm xác định dương sao cho ∀𝑥 ≠ 0, 𝑄 𝑥 > 0,

𝑄 𝑥 = 0 ⟺ 𝑥 = 0, 𝑅 ∈ ℝ𝑚 ×𝑚 sao cho 𝑅 = 𝑅𝑇 > 0, 𝑢 ∈ 𝑈(𝑥) là luật điều khiển

Trang 39

∆𝑡 𝑡

𝑑𝑡 + 𝑉(𝑥(∆𝑡)) Chuyển vế phương trình (3.5), để ý Giả thiết 3.3, sử dụng định nghĩa về đạo hàm ta có:

𝑑𝑡,

trong đó 𝑉𝑥 = 𝜕𝑉 𝜕𝑥 Sử dụng phương trình (3.1) và (3.3) cho (3.6), ta có:

𝑉𝑥𝑇 𝑓 𝑥 + 𝑔 𝑥 𝑢 + 𝑄 𝑥 + 𝑢𝑇𝑅𝑢 = 0, 𝑉 0 = 0 (3.7) Trong phương trình (3.7), nếu cho trước luật điều khiển 𝑢(𝑥) thì nghiệm 𝑉(𝑥) hoàn toàn xác định Ngoài ra, nếu 𝑢(𝑥) ổn định hệ kín (3.1) thì 𝑉(𝑥) trở thành hàm Lyapunov, khi đó (3.7) là phương trình Lyapunov phi tuyến [100], [101]

Định nghĩa hàm Hamilton:

𝐻 𝑥, 𝑢, 𝑉𝑥 = 𝑉𝑥𝑇 𝑓 𝑥 + 𝑔 𝑥 𝑢 + 𝑄 𝑥 + 𝑢𝑇𝑅𝑢 (3.8) Hàm chỉ tiêu chất lượng tối ưu 𝑉∗(𝑥(0)) được định nghĩa dựa vào (3.2):

𝑢∈𝑈(𝑥)𝐽(𝑥 0 ) = min

𝑢∈𝑈(𝑥) 𝑟 𝑥, 𝑢

∞ 0

Sử dụng xấp xỉ vô cùng nhỏ ∆𝑡, 𝑉∗ 𝑥 có thể viết thành:

Trang 40

30

𝑉∗(𝑥(𝑡)) = min

𝑢∈𝑈 𝑟 𝑥, 𝑢

∆𝑡 𝑡

Định dạng
Số trang	167
Dung lượng	5,54 MB