xiii DANH MỤC CÁC TỪ VIẾT TẮT Từ viết ANN Artificial Neural Network Mạng thần kinh nhân tạo, được viết tắt là ADP Adaptive Dynamic Programming Qui hoạch động thích nghi, một phương
Trang 1vii
MỤC LỤC
1.1 Tổng quan về đề tài 1
1.1.1 Khái niệm về học củng cố 1
1.1.2 Lịch sử phát triển của RL trong điều khiển 2
1.2 Động cơ, mục tiêu và nhiệm vụ nghiên cứu 5
1.2.1 Sự cần thiết phải nghiên cứu học củng cố trong điều khiển 5
1.2.2 Tính cấp thiết của đề tài 7
1.2.3 Mục tiêu nghiên cứu 8
1.2.4 Nhiệm vụ nghiên cứu 8
1.3 Đối tượng, phạm vi và phương pháp nghiên cứu 9
1.3.1 Đối tượng và phạm vi nghiên cứu 9
1.3.2 Phương pháp nghiên cứu 11
1.4 Những đóng góp mới của luận án về mặt khoa học 11
1.4.1 Về mặt lý thuyết 11
1.4.2 Về mặt thực tiễn 12
1.5 Bố cục luận án 13
CHƯƠNG 2 CƠ SỞ LÝ THUYẾT 14 2.1 Các định nghĩa 14
2.2 Lý thuyết học củng cố 14
2.3 Các giải thuật học củng cố kinh điển 16
2.3.1 Giải thuật VI (Value Iteration) 16
2.3.2 Giải thuật PI (Policy Iteration) 17
2.3.3 Giải thuật Q-Learning 18
2.4 Xấp xỉ hàm trong RL 19
2.4.1 Sự cần thiết phải sử dụng xấp xỉ hàm trong RL 19
2.4.2 Yêu cầu về xấp xỉ hàm trong RL 20
2.5 Các loại xấp xỉ hàm trong RL, so sánh và đánh giá 21
Trang 2viii
2.6 Thuộc tính của NN truyền thẳng một lớp 21
2.7 Giải thuật qui hoạch động thích nghi sử dụng xấp xỉ hàm 22
2.8 Tóm tắt 25
CHƯƠNG 3 GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU KHIỂN TỐI ƯU 27 3.1 Học củng cố trong điều khiển tối ưu 28
3.1.1 Mô tả bài toán 28
3.1.2 Phương trình HJB (Hamilton-Jacobi-Bellman) 28
3.2 Phân tích và thiết kế giải thuật học củng cố OADP 31
3.2.1 Cấu trúc điều khiển và luật cập nhật tham số online 31
3.2.2 Giải thuật OADP 34
3.2.3 Phân tích ổn định và hội tụ của giải thuật OADP 35
3.3 Mô phỏng, so sánh và đánh giá 36
3.4 Tóm tắt 41
CHƯƠNG 4 GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU KHIỂN THÍCH NGHI BỀN VỮNG 42 4.1 Học củng cố trong điều khiển thích nghi bền vững 43
4.1.1 Mô tả bài toán 43
4.1.2 Phương trình HJI (Hamilton-Jacobi-Isaacs) 44
4.1.3 Luật điều khiển học củng cố dựa vào nghiệm HJI 46
4.2 Giải thuật ORADP 48
4.2.1 Cấu trúc điều khiển và luật cập nhật tham số 48
4.2.2 Giải thuật ORADP 52
4.3 Phân tích ổn định và hội tụ của giải thuật ORADP 54
4.4 Mô phỏng, so sánh và đánh giá 55
4.5 Tóm tắt 59
CHƯƠNG 5 ÁP DỤNG GIẢI THUẬT ORADP CHO ROBOT DI ĐỘNG 61 5.1 Mô hình phi tuyến của WMR 63
5.2 Mô hình WMR thực nghiệm 67
5.3 Giải thuật ORADP áp dụng cho WMR 72
5.4 Mô phỏng 74
5.4.1 Quỹ đạo tham chiếu 75
5.4.2 Thiết lập tham số học 76
Trang 3ix
5.4.3 Kết quả mô phỏng 76
5.5 Thực nghiệm 80
5.6 Tóm tắt 86
CHƯƠNG 6 GIẢI THUẬT HỌC CỦNG CỐ ĐIỀU KHIỂN THÍCH NGHI BỀN VỮNG HỢP TÁC NHIỀU HỆ PHI TUYẾN MIMO 88 6.1 Lý thuyết đồ thị và mô hình hợp tác nhiều hệ phi tuyến MIMO 89
6.1.1 Đồ thị truyền thông phân tán 89
6.1.2 Động học nút 90
6.1.3 Mô hình hợp tác nhiều hệ phi tuyến 91
6.2 Phân tích, thiết kế mở rộng giải thuật học củng cố ORADP 95
6.2.1 Học củng cố trong điều khiển hợp tác 95
6.2.2 Cấu trúc điều khiển và luật cập nhật trong ORADP mở rộng 95
6.2.3 Giải thuật ORADP mở rộng 100
6.2.4 Phân tích ổn định và hội tụ của giải thuật ORADP mở rộng 101
6.3 Điều khiển hệ thống robot bầy đàn bằng giải thuật ORADP mở rộng 101
6.3.1 Mô hình hệ thống robot bầy đàn 102
6.3.2 Áp dụng giải thuật và kết quả mô phỏng 105
6.4 Tóm tắt 109
Trang 4x
DANH MỤC CÁC HÌNH VẼ
Hình 1.1 Minh họa về học củng cố 2
Hình 1.2 Cấu trúc ADP sử dụng hai xấp xỉ hàm trong điều khiển tối ưu 4
Hình 1.3 Cấu trúc ADP sử dụng ba xấp xỉ hàm trong điều khiển tối ưu 𝐻∞ 4
Hình 2.1 Nguyên lý qui hoạch động Bellman và hàm đánh giá tối ưu 16
Hình 3.1 Cấu trúc điều khiển OADP sử dụng một NN 34
Hình 3.2 Trạng thái hệ thống trong quá trình học online sử dụng OADP và AC2NN 38 Hình 3.3 Sự hội tụ của trọng số NN sử dụng OADP và AC2NN 38
Hình 3.5 OADP và AC2NN: Hàm đánh giá tối ưu xấp xỉ 39
Hình 3.4 OADP và AC2NN: (a) Sai số giữa hàm đánh giá tối ưu xấp xỉ và tối ưu lý thuyết; (b) Sai số giữa luật điều khiển tối ưu xấp xỉ và tối ưu lý thuyết 39
Hình 3.6 Hội tụ trọng số NN của giải thuật OADP với giá trị khởi tạo bằng không 40
Hình 3.7 Trọng số NN của giải thuật AC2NN không hội tụ về giá trị tối ưu khi giá trị khởi tạo của trọng số bằng không 40
Hình 4.2 Cấu trúc điều khiển ORADP sử dụng một NN 52
Hình 4.3 Sự hội tụ của trọng số NN hàm đánh giá tối ưu ORADP so với AC3NN 56
Hình 4.4 ORADP và AC3NN: a) Hàm đánh giá tối ưu xấp xỉ; b)Sai số hàm đánh giá tối ưu xấp xỉ và tối ưu lý thuyết 57
Hình 4.5 ORADP và AC3NN: a) Sai số giữa luật điều khiển tối ưu xấp xỉ và tối ưu lý thuyết; b) Sai số giữa luật nhiễu tối ưu xấp xỉ và tối ưu lý thuyết 57
Hình 4.6 Sự mất ổn định và không hội tụ của trọng số NN của giải thuật AC3NN với giá trị khởi tạo bằng không 58
Hình 4.7 Sự ổn định và hội tụ của trọng số NN của giải thuật ORADP với giá trị khởi tạo bằng không 59
Hình 5.1 Mô hình robot di động dạng xe (WMR) 63
Hình 5.2 Mô hình robot thực nghiệm: a) Mặt sau; b) Mặt trước 68
Hình 5.3 Mô hình hệ thống thị giác đa chiều trên robot 69
Hình 5.4 Ảnh không gian thực qua hệ thống thị giác đa chiều 70
Hình 5.5 Xác định tâm robot so với hệ trục cố định 70
Hình 5.6 Sơ đồ điều khiển sử dụng ORADP cho WMR 73
Hình 5.7 Lịch trình thay đổi khối lượng robot trong quá trình điều khiển 75
Hình 5.8 Lịch trình thay đổi mô men quán tính robot trong quá trình điều khiển 76
Hình 5.9 Sự hội tụ của trọng số NN trong quá trình học điều khiển 77
Hình 5.11 Sai số bám vị trí: a) Toàn bộ quá trình; b) Sau khi hội tụ 79
Hình 5.12 Quỹ đạo 𝑥, 𝑦 trong quá trình học điều khiển: a) 𝑥; b) 𝑦 79
Oxy
Trang 5xi
Hình 5.14 Sai số bám vận tốc: a) Vận tốc quay; b)Vận tốc dài 80
Hình 5.15 Quỹ đạo vận tốc quay: a) Toàn bộ quá trình; b) Sau khi hội tụ 81
Hình 5.16 Quỹ đạo vận tốc dài: a) Toàn bộ quá trình; b) Sau khi hội tụ 81
Hình 5.17 Mô men điều khiển tối ưu: a) Toàn bộ quá trình; b) Sau khi hội tụ 81
Hình 5.18 Quỹ đạo x-y thực nghiệm: a) Toàn bộ quá trình; b) Sau khi hội tụ 82
Hình 5.23 a) Không gian hoạt động; b) Quỹ đạo 𝑥 − 𝑦 của robot so với tham chiếu 85
Hình 5.24 a) Sai số bám vị trí 𝑥, 𝑦, 𝜃 ; b) Sai số bám vận tốc dài 85
Hình 5.25 a) Sai số bám vận tốc góc; b) Mô men điều khiển 85
Hình 6.1 Đồ thị truyền thông của 4 đối tượng phi tuyến 89
Hình 6.2 Cấu trúc ORADP mở rộng điều khiển hợp tác nhiều hệ phi tuyến 100
Hình 6.3 Sơ đồ điều khiển nhiều robot hợp tác sử dụng ORADP mở rộng 105
Hình 6.4 Quá trình hội tụ trọng số NN: a) Robot 1; b) Robot 2; c) Robot 3 107
Hình 6.5 Chất lượng bám vị trí của đội hình: a) Sai số bám; Quỹ đạo bám x-y 107
Hình 6.7 Đồng bộ hóa vị trí y qua các giai đoạn: a) Ban đầu; b) Hội tụ 108
Hình 6.8 Đồng bộ hóa hướng qua các giai đoạn: a) Ban đầu; b) Hội tụ 108
Hình 6.9 Sai số bám vận tốc giữa các robot: a) Vận tốc dài; b) Vận tốc quay 109
Hình 6.10 Đồng bộ hóa vận tốc dài qua các giai đoạn: a) Ban đầu; b) Hội tụ 109
Hình 6.11 Đồng bộ hóa vận tốc quay qua các giai đoạn: a) Ban đầu; b) Hội tụ 110
Hình 6.12 Mô men điều khiển đội hình robot sau khi hội tụ: a) Sau 100s; b) Hội tụ 110 Hình A.1 Mạng MLP hai lớp ẩn: (a) Cấu trúc; (b) Các thành phần trong một nút 126
Hình A.2 Cấu trúc mạng MLP một lớp ẩn, một đơn vị ngõ ra 127
Hình A.3 Cấu trúc mạng RBF 129
Hình A.4 Cấu trúc mạng RARBF 130
Hình A.5 Sai số bình phương trung bình giữa ngõ ra xấp xỉ và ngõ ra mong muốn của hai mạng MLP có số đơn vị ẩn khác nhau 133
Hình A.6 Sai số bình phương trung bình giữa ngõ ra xấp xỉ và ngõ ra mong muốn của nhóm mạng CMAC 133
Hình A.7 Sai số bình phương trung bình giữa ngõ ra xấp xỉ và ngõ ra mong muốn của nhóm mạng RBF 133
Hình G.1 Tập mẫu ngõ vào đo trong không gian ảnh 151
Hình G.2 Tập mẫu ngõ ra mong muốn đo trong không gian thực 151
Hình G.3 Kết quả huấn luyện RBF so với mẫu mong muốn 152
Hình G.4 Ngõ ra của RBF so với mong muốn biểu diễn theo X (cm)-Y (pixel) 152
Trang 6xii
DANH MỤC CÁC GIẢI THUẬT VÀ BẢNG BIỂU
Giải thuật 2.1 VI 16
Giải thuật 2.2 PI 17
Giải thuật 2.3 Q-Learning 18
Giải thuật 2.4 ADP sử dụng hai NN cập nhật tuần tự 23
Giải thuật 2.5 ADP sử dụng hai NN cập nhật đồng bộ 23
Giải thuật 2.6 ADP sử dụng ba NN cập nhật tuần tự 24
Giải thuật 2.7 ADP sử dụng ba NN cập nhật đồng bộ 25
Giải thuật 3.1 OADP 34
Giải thuật 4.1 ORADP 53
Giải thuật 5.1 ORADP áp dụng cho WMR 74
Giải thuật 6.1 ORADP mở rộng 100
Bảng 3.1 So sánh chỉ tiêu chất lượng giữa OADP và AC2NN 38
Bảng 3.2 Chỉ tiêu chất lượng khi trọng số của các NN được khởi tạo bằng không 40
Bảng 4.1 So sánh chỉ tiêu chất lượng giữa ORADP và AC3NN 57
Trang 7xiii
DANH MỤC CÁC TỪ VIẾT TẮT
Từ viết
(A)NN (Artificial) Neural Network Mạng thần kinh (nhân tạo), được viết tắt là
ADP Adaptive Dynamic
Programming
Qui hoạch động thích nghi, một phương pháp học củng cố để xấp xỉ luật điều khiển tối ưu online
ADP2NN ADP with two NNs Cấu trúc điều khiển ADP với hai NN
ADP3NN ADP with three NNs Cấu trúc điều khiển ADP với ba NN
ANN Actor Neural Network NN actor đóng vai trò bộ điều khiển trong
cấu trúc AC
ARE Algebraic Riccati Equation Phương trình đại số Riccati
CMAC Cerebellar Model
Articulation Controller
NN dựa theo mô hình tiểu não
CNN Critic Neural Network NN critic đóng vai trò xấp xỉ hàm đánh giá
trong cấu trúc AC
COD Curse of Dimensionality Sự bùng nổ tổ hợp không gian trạng thái
DP Dynamic Programming Qui hoạch động
LS Least Square Phương pháp bình phương tối thiểu
LQR Linear Quadratic Regulation Điều khiển tối ưu tuyến tính dạng toàn
phương
MIMO Multi Input-Multi Output Hệ thống nhiều đầu vào nhiều đầu ra
Trang 8xiv
MLP Multi-Layer Perceptron NN truyền thẳng nhiều lớp
NRBF Normalized Radial Basis
án để tìm luật điều khiển tối ưu online
ORADP Online Robust Adaptive
Dynamic Programming
Qui hoạch động thích nghi bền vững online: một giải thuật học củng cố được đề xuất trong luận án để tìm luật điều khiển tối
ưu thích nghi bền vững online
PE Persistence of Excitation
Kích thích hệ thống bằng cách thêm nhiễu vào véc tơ tín hiệu vào/ra PE là điều kiện
để tham số hội tụ trong nhận dạng và điều khiển thích nghi
PI Policy Iteration Giải thuật học củng cố sử dụng một số
bước lặp để xấp xỉ luật điều khiển tối ưu
RL Reinforcement Learning Học củng cố
RBF Radial Basis Function NN có hàm cơ sở xuyên tâm
RARBF Resource Allocating Radial
Sai phân tạm thời: giải thuật cập nhật tham
số của bộ dự báo liên quan đến sai phân tín hiệu theo thời gian sử dụng trong học củng
cố
UUB Uniform Ultimate Boun-ded Bị chặn tới hạn đều
VI Value Iteration Giải thuật học củng cố sử dụng một số
bước lặp để xấp xỉ hàm đánh giá tối ưu
WMR Wheeled Mobile Robot Robot di động dạng xe
ZDGT Zero-sum Differential Game
Theory
Lý thuyết trò chơi sai phân tổng bằng không ứng dụng trong lý thuyết điều khiển tối ưu 𝐻∞
Trang 9𝑥 Chuẩn của véc tơ 𝑥
𝑥 ∞ Chuẩn vô cùng của véc tơ 𝑥
𝐴 Chuẩn của ma trận 𝐴
𝐴 ∞ Chuẩn vô cùng của ma trận 𝐴
𝑉𝑥 𝑥 Gradient của hàm 𝑉(𝑥) theo 𝑥: 𝑉𝑥 𝑥 =𝜕𝑉(𝑥)
Diag(αi) Ma trận đường chéo chứa các phần tử αi
𝐿2 0, ∞ Không gian Banach, nếu ∀𝑑 ∈ 𝐿2 0, ∞ thì 𝑑 0∞ 2𝑑𝑡 < ∞
sub 𝑥(𝑡) Cận trên nhỏ nhất (cận trên đúng) của 𝑥(𝑡)
inf 𝑥(𝑡) Cận dưới lớn nhất (cận dưới đúng) của 𝑥(𝑡)
𝑊 Ma trận trọng số của NN
𝑤𝑖 Trọng số NN giữa đơn vị ẩn thứ 𝑖 và đơn vị ra (một ngõ ra)
𝑤𝑖𝑗 Trọng số NN kết nối giữa ngõ ra của đơn vị 𝑖 và ngõ vào đơn vị 𝑗
𝑛𝑖, 𝑛 Lần lượt là số lượng nút ở lớp vào, số lượng nút ở lớp ẩn của NN
𝜙(𝑥) Véc tơ hàm tác động của NN
𝑉 𝑥 Hàm đánh giá
𝑉∗(𝑥) Hàm đánh giá tối ưu
𝑢, 𝑢∗ Véc tơ tín hiệu ngõ vào điều khiển và ngõ vào điều khiển tối ưu
𝑑 Véc tơ nhiễu của hệ thống
𝑥 Véc tơ tín hiệu trạng thái của hệ thống
𝑥0 Véc tơ trạng thái của hệ thống tại thời điểm 𝑡 = 0
Trang 11Phương pháp RL, đặc biệt hữu ích nếu môi trường thiếu thông tin để ra quyết định chọn hành động Trong trường hợp đó, RL sử dụng phương pháp thử và sai có đánh giá Thông tin hồi tiếp từ môi trường tương ứng với hành động thử sai được đánh giá và lưu trữ Sau đó, dựa vào thông tin lưu trữ, chiến lược chọn hành động tốt hơn được thực hiện để cải thiện chất lượng tương tác với môi trường [18], [56], [68], [71], [96], [100], [112]
Trong điều khiển tối ưu, RL học thích nghi trực tuyến nghiệm HJB dựa vào thông tin vào ra của đối tượng với mục tiêu tối thiểu hàm chi phí cho trước RL được chứng minh là phương pháp điều khiển tối ưu thích nghi trực tiếp [43], [44]-[46], [63] [72]-[73], [84], [92], [96]-[98], [100]-[103], [108]-[113]
Lý thuyết RL kế thừa từ lý thuyết tối ưu của qui hoạch động (Dynamic Programming (DP)) [16] và phát triển thành lý thuyết qui hoạch động thích nghi (Adaptive Dynamic Programming (ADP)) hoặc qui hoạch động xấp xỉ (Approximate Dynamic Programming (ADP)) [35], [38], [39], [43], [53], [60], [61], [72], [73], [84], [92], [98], [109], [113], [114], [120], [128]-[130] ADP đã khắc phục được các hạn chế của DP như off-line, không điều khiển thời gian thực, cần mô hình toán chính xác
Ngoài ra, khi ADP sử dụng xấp xỉ hàm sẽ khắc phục được các điểm yếu quan trọng của
Trang 122
Hình 1.1 Minh họa về học củng cố
DP như giảm chi phí tính toán và tài nguyên lưu trữ, khắc phục được hiện tượng bùng
nổ tổ hợp (Curse of Dimensionality (COD)) khi rời rạc hóa không gian trạng thái [88], đặc biệt nếu đối tượng điều khiển là hệ MIMO (Multi Input-Multi Output)
Theo thời gian, các giải thuật RL đã liên tục phát triển Trong [119], dựa vào lý thuyết RL, Werbos đã phát triển giải thuật lặp PI (Policy Iteration) Từ đó đến nay rất nhiều giải thuật PI thời gian thực được nghiên cứu và mở rộng [17]-[19], [43], [56], [71], [73], [98], [100], [113]-[114], [120], [129] Gần đây, các giải thuật lặp PI kết hợp xấp xỉ hàm ADP được nghiên cứu để điều khiển thích nghi tối ưu online cho hệ phi tuyến chứa động học nội (internal dynamics) không biết trước, bỏ qua thủ tục nhận dạng hệ thống [56], [100], [106], [108], [112], [114], [122]-[123], [129]
1.1.2 Lịch sử phát triển của RL trong điều khiển
RL được nghiên cứu, phát triển và ứng dụng mạnh trong lĩnh vực học máy từ những thập niên 1980 [96] Tuy nhiên, đối với lĩnh vực điều khiển, RL chỉ mới thực sự bắt đầu phát triển từ những năm đầu của thế kỷ 21 Lịch sử phát triển của RL trong lĩnh vực điều khiển tạm chia thành ba giai đoạn Trong giai đoạn đầu tiên (trước năm 2005), lý thuyết RL từ lĩnh vực trí tuệ nhân tạo được phát triển mở rộng sang lĩnh vực điều khiển Trước tiên, RL với mô hình Markov được định nghĩa bằng cách rời rạc hóa không gian trạng thái [96] Sau đó, hai giải thuật lặp cơ bản: PI [51], [119] và VI (Value Iteration) [96] được sử dụng để xấp xỉ luật điều khiển hoặc hàm đánh giá tối
ưu Để áp dụng được hai giải thuật này, mô hình toán của hệ thống cần phải xác định trước Một giải thuật khác được đề xuất với luật cập nhật tham số không phụ thuộc vào
mô hình hệ thống, đó là giải thuật dự báo TD (Temporal Difference) [95] Nếu tín hiệu
Tác tử (Agent)
Môi trường
Thông tin Hành động
Bộ nhớ
Trang 133
điều khiển được lượng tử hóa cùng với không gian trạng thái, giải thuật Q-Learning [116] được đề nghị Trong Q-Learning luật cập nhật tham số không phụ thuộc vào mô hình hệ thống Tuy nhiên, tất cả các giải thuật nêu trên chỉ áp dụng cho bài toán điều khiển off-line
Một trong những nghiên cứu RL thành công chuyển từ điều khiển off-line sang online trong giai đoạn này là phương pháp qui hoạch động tăng cường (Incremental Dynamic Programming (IDP)) [20], [42] IDP được thiết kế để điều khiển tối ưu thích nghi dựa trên giải thuật Q-learning, xấp xỉ online nghiệm cho bài toán LQR (Linear Quaratic Regulation) rời rạc với các ma trận trạng thái không biết trước Bên cạnh đó, phải kể đến một loạt các nghiên cứu thành công khác, đó là sử dụng xấp xỉ hàm vào cấu trúc ADP để giải quyết vấn đề bùng nổ tổ hợp trong không gian trạng thái rời rạc cho hệ đa biến [88]
Các ứng dụng ADP với xấp xỉ hàm từ đó tiếp tục được phát triển mở rộng [27], [96], [99], [123] Tuy nhiên, hầu hết các nghiên cứu trong giai đoạn này không chứng minh tính ổn định hệ thống trong quá trình học và điều khiển Ngoài ra, luật cập nhật online cho tham số xấp xỉ hàm chưa được thiết kế chặt chẽ Một điểm quan trọng khác đáng lưu ý trong giai đoạn này là RL chỉ được áp dụng cho hệ thống rời rạc Lý do này xuất phát từ thuộc tính rời rạc của qui hoạch động mà RL thừa kế (xem [73] cùng các tài liệu tham khảo trong đó)
Ở giai đoạn thứ hai (từ những năm 2005-2010), các nhà nghiên cứu tập trung vào việc sử dụng lý thuyết điều khiển hiện đại vào RL để thiết kế bộ điều khiển online cho
hệ thống phi tuyến [71] Ngoài ra, do không thể áp dụng phương pháp RL rời rạc cho
hệ thống liên tục nên lý thuyết RL bắt đầu chuyển hướng Giải thuật điều khiển tối ưu thích nghi cho hệ thống tuyến tính liên tục với ma trận trạng thái không biết trước được đề xuất trong [110] với kết quả là nghiệm tối ưu được xấp xỉ online đến nghiệm giải tích ARE (nghiệm giải chỉ tích tồn tại khi biết trước ma trận trạng thái) Trong nghiên cứu này, sự hội tụ và ổn định hệ kín được chứng minh chặt chẽ Song song với
đó là một loạt các nghiên cứu khác về điều khiển tối ưu cho hệ thống phi tuyến rời rạc
và liên tục với thông tin về các thành phần động trong mô hình hoàn toàn biết trước [19], [29], [31], [35], [43], [45], [73], [84]-[85], [92], [98], [101], [108], [113], [130]
Trang 144
Hình 1.2 Cấu trúc ADP sử dụng hai xấp xỉ hàm trong điều khiển tối ưu
Hình 1.3 Cấu trúc ADP sử dụng ba xấp xỉ hàm trong điều khiển tối ưu 𝐻∞
Đa số các nghiên cứu trong thời kỳ này sử dụng cấu trúc điều khiển ADP chuẩn (xem (H 1.2) và các định nghĩa trong [56]) với hai xấp xỉ hàm gọi là AC (Actor-Critic), trong đó một xấp xỉ hàm (critic) dùng để đánh giá luật điều khiển và xấp xỉ hàm chi phí tối ưu, xấp xỉ hàm còn lại (actor) dùng để xấp xỉ luật điều khiển tối ưu [56], [57] Luật cập nhật tham số của hai xấp xỉ hàm là online có sự ràng buộc lẫn nhau Thành công của các nghiên cứu trong giai đoạn này là sự ổn định của hệ kín bao gồm các xấp xỉ hàm chứa tham số chỉnh định online được phân tích và chứng minh rất chặt chẽ
Trạng thái/Ngõ ra
Hành động (Tín hiệu điều khiển)
Xấp xỉ hàm (Critic) (Hàm chi phí)
Môi trường (Đối tượng) Xấp xỉ hàm (Actor)
Xấp xỉ hàm (Actor 2)
Chặn trên của nhiễu
Trạng thái /Ngõ ra Xấp xỉ hàm (Critic) (Hàm chi phí)
Xấp xỉ hàm (Actor 1)
Môi trường (Đối tượng) Hành động
(Tín hiệu điều khiển)
Trang 155
Giai đoạn thứ ba (từ năm 2010 cho đến nay), lịch sử phát triển về RL liên quan đến bài toán điều khiển tối ưu thích nghi cho hệ phi tuyến chứa một vài thành phần động học hệ thống không biết trước [17]-[19], [38], [58], [61], [63], [66], [71], [80]-[81], [85], [105]-[106], [120]-[121], [128]-[129] Song song với các nghiên cứu vừa nêu là các nghiên cứu về giải thuật RL cho bài toán điều khiển tối ưu 𝐻∞ với hệ tuyến tính có ma trận trạng thái không biết trước [109], hoặc hệ phi tuyến với các thành phần động học trong mô hình hoàn toàn xác định [31], [53], [56], [57], [102]-[103] Đa số các nghiên cứu này đều sử dụng cấu trúc ADP với ba xấp xỉ hàm [43], [67], [84], [123] Một xấp xỉ hàm (Actor 2 trong H 1.3) được thêm vào cấu trúc ADP nhằm xấp
xỉ chặn trên của nhiễu (nhiễu xấu nhất)
Xuất phát từ lý thuyết của RL, nghiên cứu chuyên sâu hơn nữa để phát triển RL
về mặt lý thuyết cũng như thực tiễn là mục tiêu chính trong luận án này
1.2 Động cơ, mục tiêu và nhiệm vụ nghiên cứu
1.2.1 Sự cần thiết phải nghiên cứu học củng cố trong điều khiển
Thiết kế giải thuật điều khiển cho hệ phi tuyến có các thành phần không chắc chắn, nhiễu sai số mô hình, nhiễu ngoài tác động sao cho hệ kín không chỉ ổn định bền vững mà còn tăng cường chất lượng điều khiển là bài toán được rất nhiều nhà nghiên cứu quan tâm Các phương pháp để giải quyết bài toán này là điều khiển thích nghi [62] trong đó phổ biến là nhận dạng gián tiếp hệ thống [77], sau đó thiết kế bộ điều khiển Phương pháp thứ hai là nhận dạng online các thành phần không chắc chắn trong
hệ thống sử dụng các bộ xấp xỉ hàm Do xấp xỉ hàm bị giới hạn bởi một số hữu hạn các tham số nên sai số xấp xỉ là không thể tránh khỏi Sai số này cùng với nhiễu có thể làm cho hệ kín mất ổn định Vì vậy, kết hợp thêm thành phần điều khiển bền vững vào luật điều khiển thích nghi để bù sai số xấp xỉ và nhiễu là cần thiết [24], [69] Tuy nhiên, các phương pháp điều khiển thích nghi hoặc thích nghi bền vững chưa giải quyết triệt để bài toán tối ưu [125]
Thành phần điều khiển bền vững thêm vào sơ đồ điều khiển thích nghi thường có tham số hằng, được thiết kế để hệ kín ổn định bền vững nên thường phải “hy sinh” chất lượng điều khiển Nếu chọn tham số hằng không phù hợp có thể xảy ra các hiện tượng: hệ thống nhanh thích nghi nhưng chất lượng điều khiển không tốt hoặc ngược
Trang 166
lại Hệ kín luôn bảo đảm ổn định bền vững nhưng có hiện tượng chattering (hiện tượng biên độ giá trị ngõ vào điều khiển thay đổi giá trị với tần số cao) hoặc ngược lại Nói cách khác, phương pháp điều khiển thích nghi bền vững kinh điển chỉ mang đến sự thỏa hiệp giữa chất lượng điều khiển và khả năng ổn định của hệ thống
Cùng với sự phát triển của lý thuyết điều khiển thích nghi, bền vững, lý thuyết điều khiển tối ưu hiện đại cho hệ phi tuyến là một trong những vấn đề được liên tục nghiên cứu trong nhiều thập kỷ qua Luật điều khiển tối ưu được thiết kế không chỉ ổn định hệ thống mà còn tối thiểu hàm chi phí ràng buộc đến chỉ tiêu chất lượng mong muốn Về mặt toán học, bài toán điều khiển tối ưu được giải nếu nghiệm phương trình Hamilton-Jacobi-Bellman (HJB) được giải Đối với hệ tuyến tính, HJB trở thành phương trình ARE (Algebraic Riccati Equation) Đối với hệ phi tuyến, HJB trở thành phương trình vi phân phi tuyến Với hệ tuyến tính thiếu thông tin về ma trận trạng thái, nghiệm ARE không thể giải được bằng giải tích, với hệ phi tuyến, nghiệm giải tích HJB là rất khó giải, nếu không muốn nói là không thể cho dù biết trước mô hình hệ thống Vì lý do đó, vấn đề xấp xỉ nghiệm HJB được đặt ra
Lý thuyết điều khiển bền vững sử dụng chuẩn 𝐻∞ đóng vai trò rất quan trọng trong phân tích và thiết kế hệ thống [131] Bộ điều khiển tối ưu bền vững 𝐻∞ được thiết kế bằng cách giải phương trình đại số Riccati mở rộng cho hệ tuyến tính [109] và HJI (Hamilton-Jacobi-Isaacs) cho hệ tuyến tính [107] Mặc dù lý thuyết điều khiển hiện đại liên quan đến bài toán điều khiển 𝐻∞ cho hệ phi tuyến [15] nhưng trong nhiều ứng dụng thực tế, vấn đề phức tạp ở chỗ làm thế nào để tìm nghiệm HJI, bởi vì đây là phương trình vi phân phi tuyến không có nghiệm giải tích [100], [122]
Lý thuyết RL là một trong những công cụ mạnh dùng để nghiên cứu và phát triển các giải thuật điều khiển tối ưu bằng cách xấp xỉ online nghiệm HJB và HJI nhằm khắc phục các hạn chế nêu trên [10], [11], [17]-[19], [38], [53], [61]-[58], [63], [66], [71], [81]-[80], [85], [105]-[106], [120]-[122], [128]-[129] Tuy nhiên, trong hầu hết các giải thuật RL, thành phần động học nội trong mô hình hệ phi tuyến đòi hỏi phải xác định trước và nhiễu tác động bị bỏ qua [100], [106] Vì vậy, kết hợp đặc tính thích nghi bền vững vào giải thuật RL để giải bài toán điều khiển tối ưu cho hệ phi tuyến chứa thành phần động không có thông tin xác định, bị tác động bởi nhiễu là cần thiết
Trang 177
1.2.2 Tính cấp thiết của đề tài
Chỉ một số rất ít nghiên cứu về giải thuật RL, gần đây, đã kết hợp đặc tính tối ưu
𝐻∞ vào bài toán điều khiển thích nghi bền vững hệ phi tuyến chứa thành phần bất định, chịu tác động bởi nhiễu [10], [53], [103], [112] Các nghiên cứu này sử dụng giải thuật lặp PI dựa vào cấu trúc ADP ba xấp xỉ hàm (H 1.3) Tuy nhiên, với cấu trúc ba xấp xỉ hàm, ADP còn tồn tại một số hạn chế: Tính toán phức tạp, lãng phí tài nguyên, chậm hội tụ, cập nhật tham số giữa các xấp xỉ hàm là tuần tự qua nhiều bước lặp [100], [103]-[106] Ngoài ra, các giải thuật này cần được khởi động bởi các luật điều khiển
ổn định cho trước Điều này làm giảm tính linh hoạt trong thiết kế, bởi vì trong một số ứng dụng đặc biệt, xác định trước luật điều khiển khởi tạo ổn định là điều thách thức Tăng tốc độ hội tụ, tăng tính linh hoạt trong thiết kế bằng cách giảm độ phức tạp tính toán, giảm tài nguyên hệ thống và thiết kế đơn giản luôn là động cơ thúc đẩy để nghiên cứu các giải thuật điều khiển [122], [125] Nếu mỗi xấp xỉ hàm là một mạng thần kinh (Neural Network (NN)), thì với ba xấp xỉ hàm, số lớp ẩn và số đơn vị nút ở lớp ẩn, số lượng hàm tác động sẽ tăng lên theo cấp số nhân, kéo theo số phần tử trong
ma trận trọng số sẽ tăng lên tương ứng Với cấu trúc ADP sử dụng ba NN, đặc biệt khi
áp dụng cho hệ thống đa biến, hồi tiếp đủ trạng thái thì số lượng tham số sẽ tăng lên đáng kể Các trọng số NN phải được liên tục cập nhật trong suốt quá trình học, do đó chi phí tính toán là vấn đề thách thức Khi sử dụng giải thuật PI để xấp xỉ nghiệm online, tốc độ hội tụ của giải thuật ngoài các yếu tố khác còn phụ thuộc rất nhiều vào cấu trúc chọn trước Nếu nhiều xấp xỉ hàm được sử dụng, quá trình tính toán sẽ rất phức tạp, giải thuật chậm hội tụ là điều khó tránh khỏi
Các giải thuật trong [10], [34], [103] ngoài việc đòi hỏi phải biết rõ các hàm thành phần trong phương trình mô tả hệ phi tuyến, trọng số NN còn phải cập nhật trong hai vòng lặp khác nhau, với lý do là phương trình HJI được xấp xỉ tuần tự bởi một loạt các phương trình HJB Thủ tục như vậy sẽ dẫn đến nghiệm của các phương trình bị dư thừa gây lãng phí tài nguyên và cho hiệu quả thấp [122] Ngoài ra, do các xấp xỉ hàm phụ thuộc lẫn nhau, nếu khởi tạo trọng số NN không phù hợp sẽ dẫn đến
hệ kín mất ổn định ngay từ những thời điểm học đầu tiên [100] Hay nói cách khác, tìm luật điều khởi tạo ổn định cho giải thuật là điều bắt buộc
Để khắc phục nhược điểm nêu trên, một số nghiên cứu về RL đề xuất giảm số
Trang 188
lượng xấp xỉ hàm trong cấu trúc điều khiển [31], [125] đã đề xuất giải thuật SOLA (Single Online Approximator), trong đó chỉ duy nhất một NN được sử dụng để khắc phục hiện tượng nhiều xấp xỉ hàm Ngoài ra, với SOLA, luật điều khiển ổn định để khởi động cho giải thuật là không cần thiết Tuy nhiên, giải thuật này yêu cầu phải xác định trước thành phần động học nội trong mô hình hệ thống Để kết hợp yếu tố thích nghi trong bài toán điều khiển tối ưu 𝐻∞ liên quan đến nghiệm HJI đồng thời khắc phục luôn hiện tượng dư thừa nghiệm, [122] đã đề xuất giải thuật xấp xỉ online nghiệm HJI sử dụng duy nhất một NN Giải thuật này không cần biết trước và không cần sử dụng thông tin về động học nội trong hệ thống Quá trình cập nhật tham số luật điều khiển và luật nhiễu trong giải thuật này đồng bộ trong cùng một bước lặp, ưu điểm hơn [103] Tuy nhiên, giải thuật này vẫn còn gặp trở ngại, đó là phải ngưng cập nhật các tham số của hệ thống trong một khoảng thời gian đủ lớn để lấy tập mẫu huấn luyện cho lần cập nhật trọng số tiếp theo Ngoài ra, giải thuật này vẫn còn đòi hỏi bộ điều khiển khởi tạo ổn định
1.2.3 Mục tiêu nghiên cứu
Trên cơ sở ưu và nhược điểm của giải thuật học củng cố vừa giới thiệu, mục tiêu nghiên cứu chính trong luận án này là phân tích và thiết kế giải thuật học củng cố mới trong điều khiển thích nghi bền vững cho hệ phi tuyến Giải thuật đáp ứng các yêu cầu:
1 Điều khiển online, tránh thủ tục nhận dạng hệ thống (gián tiếp hoặc trực tiếp)
2 Bảo đảm được hệ kín ổn định bền vững
3 Tối thiểu được hàm chỉ tiêu chất lượng và chỉnh định được các tham số luật điều khiển về giá trị cận tối ưu
4 Giảm được chi phí tính toán và tài nguyên nhằm tăng nhanh tốc độ hội tụ
5 Loại bỏ được yêu cầu về chọn trước luật điều khiển ổn định để khởi động giải thuật
6 Giải thuật càng đơn giản càng tốt
Các mục tiêu trên nhằm cải thiện hơn nữa chất lượng điều khiển, tăng tốc độ hội
tụ, tăng tính linh hoạt trong thiết kế so với các giải thuật học củng cố trước đây
1.2.4 Nhiệm vụ nghiên cứu
Để đạt được mục tiêu nghiên cứu, trong khuôn khổ luận án, một số nhiệm vụ cấp
Trang 199
thiết được đặt ra như sau:
a) Nghiên cứu giải thuật học củng cố điều khiển tối ưu cho hệ phi tuyến dựa trên cấu trúc qui hoạch động thích nghi sử dụng hai xấp xỉ hàm (H 1.2) [56], [100], [101] Giải thuật trong luận án chỉ sử dụng một xấp xỉ hàm, khắc phục được sự dư thừa của xấp xỉ hàm so với qui hoặc động thích nghi kinh điển Thiết kế được luật cập nhật tham số online cho xấp xỉ hàm Loại bỏ được yêu cầu phải chọn trước luật điều khiển ổn định để khởi động giải thuật Xây dựng được giải thuật điều khiển và chứng minh được sự hội tụ và ổn định cho toàn hệ thống
b) Nghiên cứu giải thuật học củng cố điều khiển thích nghi bền vững hệ phi tuyến trên nền tảng cấu trúc qui hoạch động thích nghi bền vững sử dụng ba xấp xỉ hàm (H 1.3) [56], [100], [103] Giải thuật trong luận án chỉ sử dụng một xấp xỉ hàm, khắc phục được sự dư thừa của hai xấp xỉ hàm còn lại Thiết kế được luật cập nhật tham số online cho xấp xỉ hàm không sử dụng thông tin về động học nội tránh thủ tục nhận dạng hệ thống Loại bỏ được yêu cầu phải chọn trước luật điều khiển ổn định để khởi động giải thuật Xây dựng được giải thuật điều khiển và chứng minh được sự hội
tụ và ổn định cho toàn hệ thống
c) Kiểm tra được tính hiệu quả của giải thuật đề xuất qua các nội dung: (𝑖) Mô phỏng, so sánh và đánh giá với các giải thuật học củng cố khác trên cùng hệ phi tuyến (𝑖𝑖) Mô phỏng và thực nghiệm trên đối tượng robot di động dạng xe
d) Mở rộng giải thuật học củng cố điều khiển thích nghi bền vững cho bài toán điều khiển hợp tác nhiều hệ phi tuyến MIMO, áp dụng trong mô phỏng đồng bộ hóa đội hình robot bầy đàn
1.3 Đối tượng, phạm vi và phương pháp nghiên cứu
1.3.1 Đối tượng và phạm vi nghiên cứu
Đối tượng điều khiển được xét trong luận án có ba loại Đối tượng thứ nhất cần nghiên cứu là lớp hệ thống phi tuyến có dạng [101]:
trong đó 𝑥 ∈ ℝ𝑛 là véc tơ trạng thái, 𝑢 ∈ ℝ𝑚 là véc tơ tín hiệu điều khiển và 𝑓 𝑥 ∈
ℝ𝑛, 𝑔 𝑥 ∈ ℝ𝑛 ×𝑚 là các hàm phi tuyến khả vi liên tục giả sử biết trước Ngoài ra,
𝑓 0 = 0 và 𝑓 𝑥 , 𝑔 𝑥 giả sử bị chặn [124]-[125] Giả sử này chỉ sử dụng để chứng minh tính ổn định của hệ thống, không sử dụng trong luật điều khiển cũng như luật cập
Trang 2010
nhật tham số
Giải thuật điều khiển cho đối tượng (1.1) mà luận án nghiên cứu là giải thuật học củng cố điều khiển tối ưu được phát triển trên nền tảng cơ sở lý thuyết qui hoạch động thích nghi sử dụng xấp xỉ hàm
Đối tượng thứ hai cần nghiên cứu tiếp theo là lớp hệ phi tuyến có dạng [122]:
𝑥 = 𝑓 𝑥 + 𝑔 𝑥 𝑢 + 𝑘 𝑥 𝑑
𝑦 = (𝑥) (1.2) trong đó 𝑥 ∈ ℝ𝑛 là véc tơ trạng thái, 𝑢 ∈ ℝ𝑚 là véc tơ tín hiệu điều khiển với 𝑢 ∈
𝐿2 0 , ∞ , 𝑑 ∈ ℝ𝑞 là nhiễu thỏa điều kiện 𝑑 ∈ 𝐿2 0 , ∞ , 𝑓 𝑥 ∈ ℝ𝑛 là véc tơ hàm phi tuyến liên tục đặc trưng cho thành phần động học nội hệ thống không biết trước [122],
𝑦 ∈ ℝ𝑝 là ngõ ra mục tiêu, (𝑥) ∈ ℝ𝑝, 𝑔 𝑥 ∈ ℝ𝑛 ×𝑚 và 𝑘 𝑥 ∈ ℝ𝑛 ×𝑞 lần lượt là véc
tơ hàm và các ma trận hàm phi tuyến liên tục xác định trước, giả sử bị chặn [31] Giả
sử này chỉ sử dụng để chứng minh tính ổn định của hệ thống, không sử dụng trong luật điều khiển cũng như luật cập nhật tham số
Giải thuật điều khiển cho đối tượng (1.2) mà luận án nghiên cứu là giải thuật học củng cố trong điều khiển thích nghi bền vững được phát triển trên nền tảng cơ sở lý thuyết qui hoạch động thích nghi bền vững sử dụng xấp xỉ hàm
Đối tượng thực nghiệm nhằm kiểm chứng tính hiệu quả của phương pháp học củng cố thích nghi bền vững là lớp hệ phi tuyến thuộc (1.2) Đó là robot di động dạng
xe, một đối tượng phi tuyến chứa thành phần động không thể cấu trúc hóa hoặc mô hình hóa, chịu tác động bởi nhiễu mô men ngõ vào có năng lượng hữu hạn
Đối tượng cuối cùng cần nghiên cứu để mở rộng giải thuật học củng cố trong điều khiển thích nghi bền vững là 𝑁 hệ phi tuyến MIMO hợp tác Mỗi hệ 𝑖, 1 ≤ 𝑖 ≤ 𝑁
có 𝑚 (𝑚 ≥ 2) phương trình phi tuyến:
Trang 2111
ℝ𝑛 ×𝑛 +1 lần lượt là các véc tơ và ma trận hàm phi tuyến khả vi liên tục Giả sử rằng toàn bộ trạng thái có sẵn để hồi tiếp và 𝑓𝑖(𝑥 𝑖) là động học nội không biết trước Giải thuật điều khiển cho nhiều hệ phi tuyến (1.3) mà luận án nghiên cứu là giải thuật học củng cố điều khiển hợp tác thích nghi bền vững được phát triển mở rộng trên nền tảng giải thuật điều khiển hệ phi tuyến (1.2)
1.3.2 Phương pháp nghiên cứu
Trên cơ sở lý thuyết về RL và tiếp cận đến những kết quả công bố mới nhất về
RL, luận án phân tích ưu nhược điểm của từng giải thuật, tiếp tục nghiên cứu và phát triển nhằm khắc phục các hạn chế còn tồn tại Phương pháp nghiên trong luận án là:
- Nghiên cứu tài liệu tham khảo có liên quan, phân tích và thiết kế hệ thống, tính toán và chứng minh ổn định và hội tụ bằng cơ sở toán học, kết hợp giữa mô phỏng
và thực nghiệm nhằm mục đích kiểm tra tính hiệu quả của lý thuyết
1.4 Những đóng góp mới của luận án về mặt khoa học
So với các công trình nghiên cứu khoa học khác đã công bố cùng lĩnh vực, luận
án này đóng góp thêm các điểm mới về mặt lý thuyết cũng như thực tiễn như sau:
1.4.1 Về mặt lý thuyết
a) Trên cơ sở lý thuyết tổng quan về học củng cố và xấp xỉ hàm [1], [3], [99], luận án nghiên cứu và phát triển giải thuật học củng cố OADP (Online Adaptive Dynamic Programming) điều khiển tối ưu hệ phi tuyến (1.1) Các điểm mới trong giải thuật OADP được thể hiện như sau:
- Cấu trúc điều khiển được đề xuất với duy nhất một xấp xỉ hàm đã khắc phục được hiện tượng dư thừa một xấp xỉ hàm còn lại so với các nghiên cứu khác [18], [80], [101] Cấu trúc này tránh độ phức tính toán nhằm tăng nhanh tốc độ hội tụ
- Luật cập nhật online cho tham số xấp xỉ hàm được phân tích và thiết kế
Trang 2212
không chỉ bảo đảm hệ kín ổn định mà còn tham số hệ thống hội tụ đến giá trị cận tối
ưu Ngoài ra, yêu cầu về luật điều khiển ổn định để khởi động giải thuật được loại bỏ
- Tham số xấp xỉ hàm và luật điều khiển được cập nhật đồng bộ trong một bước lặp nhằm tăng thêm tốc độ hội tụ, khác với [73], [111]
- Định lý ổn định và hội tụ được phát biểu và chứng minh (Định lý 3.2)
b) Mở rộng giải thuật OADP, phân tích và thiết kế giải thuật học củng cố ORADP (Online Robust Adaptive Dynamic Programming) điều khiển thích nghi bền vững hệ phi tuyến (1.2) với thông tin về động học nội hoàn toàn không biết Các điểm mới trong giải thuật ORADP được thể hiện như sau:
- Cấu trúc điều khiển học củng cố thích nghi bền vững với duy nhất một xấp xỉ hàm được sử dụng, khắc phục được hiện tượng dư thừa hai xấp xỉ hàm so còn lại với các nghiên cứu khác [103], [109] Ưu điểm này dẫn đến độ phức tính toán và tài nguyên mà giải thuật sử dụng sẽ giảm nhiều lần, từ đó tốc độ hội tụ tăng lên
- Luật cập nhật online cho tham số xấp xỉ hàm được phân tích và thiết kế đạt được các mục tiêu chính: bỏ qua thủ tục nhận dạng hệ thống (khác với [18]), không đòi hỏi phải khởi động giải thuật bằng luật điều khiển ổn định (khác với [103], [109]), bảo đảm hệ kín ổn định bền vững và tham số hệ thống hội tụ đến giá trị cận tối ưu
- Tham số xấp xỉ hàm và luật điều khiển được cập nhật đồng bộ trong một bước lặp nhằm tăng thêm tốc độ hội tụ, khác với [103], [109]
- Định lý ổn định và hội tụ được phát biểu và chứng minh (Định lý 4.4)
- Không cần nhận dạng (trực tiếp hoặc gián tiếp) thành phần động học chưa xác định trong mô hình robot
- Tối thiểu được hàm chỉ tiêu chất lượng liên quan đến sai số bám động học, động lực học và năng lượng điều khiển
Trang 231 Chương 2: Trình bày cơ sở lý thuyết về học củng cố bao gồm các giải thuật học củng cố kinh điển, các loại xấp xỉ hàm và so sánh giữa các xấp xỉ hàm, các giải thuật qui hoạch động thích nghi sử dụng xấp xỉ hàm, chọn xấp xỉ hàm hợp lý phục
vụ cho bài toán thiết kế ở các chương tiếp theo
2 Chương 3: Phân tích và thiết kế giải thuật học củng cố trong điều khiển tối ưu cho
hệ phi tuyến với nội dung chính như sau:
- Phân tích, thiết kế cấu trúc điều khiển
- Phân tích, thiết kế luật cập nhật tham số xấp xỉ hàm
- Xây dựng giải thuật, chứng minh sự hội tụ và ổn định của hệ kín
3 Chương 4: Phân tích và thiết kế giải thuật học củng cố điều khiển thích nghi bền vững cho hệ phi tuyến với nội dung chính như sau:
- Phân tích và thiết kế cấu trúc điều khiển
- Phân tích và thiết kế luật cập nhật tham số xấp xỉ hàm
- Xây dựng giải thuật, chứng minh sự hội tụ và ổn định của hệ kín
4 Chương 5: Mô phỏng và thực nghiệm robot di động dạng xe sử dụng giải thuật học củng cố thích nghi bền vững
5 Chương 6: Mở rộng giải thuật học củng cố thích nghi bền vững để điều khiển thích nghi bền vững hợp tác nhiều hệ phi tuyến MIMO, kiểm chứng giải thuật qua ứng dụng mô phỏng điều khiển robot bầy đàn hợp tác
Cuối cùng là phần kết luận và hướng phát triển
Trang 2414
Chương này trình bày tóm lược lý thuyết học củng cố, giới thiệu các giải thuật kinh điển của học củng cố, trình bày cấu trúc và luật học đơn giản của các xấp xỉ hàm thông dụng, phát biểu về sự cần thiết phải sử dụng xấp xỉ hàm trong học củng cố Sau
đó, các loại xấp xỉ hàm được so sánh đánh giá, làm cơ sở cho việc nghiên cứu các giải thuật học củng cố dựa vào xấp xỉ hàm ở các chương tiếp theo
2.1 Các định nghĩa
Định nghĩa 2.1 (Uniform Ultimate Bounded-UUB [74]): Xét hệ thống phi tuyến:
với trạng thái 𝑥(𝑡) ∈ ℝ𝑛 Điểm cân bằng 𝑥𝑐 được gọi là UUB nếu tồn tại một tập đóng
Ω𝑥 ⊂ ℝ𝑛, sao cho với mọi 𝑥 ⊂ Ω𝑥, luôn tồn tại chặn trên 𝐵 và thời gian 𝑇𝐵(𝐵, 𝑥𝑐) để điều kiện 𝑥 𝑡 − 𝑥𝑐 ≤ 𝐵 luôn thỏa với mọi 𝑡 ≥ 𝑡0 + 𝑇𝐵
Định nghĩa 2.2 (Zero-State Observability [55]): Hệ thống (2.1) với ngõ ra đo
được 𝑦 = (𝑥) gọi là quan sát được trạng thái không, nếu 𝑦 𝑡 ≡ 0, ∀𝑡 ≥ 0, kéo theo
𝑥 𝑡 ≡ 0
Định nghĩa 2.3 (Điều kiện PE (Persistently Exciting) [55]): Một véc tơ tín hiệu
bị chặn 𝜎 𝑡 được gọi là thỏa điều PE trong khoảng thời gian 𝑡, 𝑡 + 𝑇𝑃 , 𝑇𝑃 > 0 nếu tồn tại 𝛽1 > 0 và 𝛽2 > 0 sao cho với mọi 𝑡:
Ở mỗi trạng thái 𝑥 ∈ Ω𝑥, có tập hữu hạn các tín hiệu điều khiển 𝑈 𝑥
Mô hình đối tượng điều khiển 𝑥𝑘+1 = 𝑓(𝑥𝑘, 𝑢(𝑥𝑘)) với 𝑢(𝑥𝑘) ∈ 𝑈 𝑥𝑘 là tín hiệu điều khiển để chuyển trạng thái hệ thống từ 𝑥𝑘 sang 𝑥𝑘 +1
Hàm thưởng/phạt, còn gọi là tín hiệu củng cố, 𝑟 𝑥𝑘, 𝑢(𝑥𝑘) ∈ ℝ, đặc trưng
Trang 2515
cho chi phí điều khiển khi áp dụng luật điều khiển 𝑢(𝑥𝑘) ở trạng thái 𝑥𝑘
Luật điều khiển 𝑢 𝑥 : Ω𝑥 → 𝑈(𝑥) sao cho nếu áp dụng 𝑢 𝑥 từ trạng thái 𝑥0
sẽ phát sinh ra quỹ đạo trạng thái 𝑥0, 𝑥1, 𝑥2, …, thỏa điều kiện: ∀𝑘 = 1, … , 𝑁 −
1, 𝑥𝑘+1 = 𝑓(𝑥𝑘, 𝑢(𝑥𝑘))
Hàm biểu diễn tổng chi phí cộng dồn xuất phát từ 𝑥0 khi tín hiệu điều khiển
𝑢 𝑥𝑘 được áp dụng dọc theo quỹ đạo trạng thái, ∀𝑥𝑘 ∈ Ω𝑥 được gọi là hàm chỉ tiêu chất lượng hoặc hàm chi phí của 𝑢(𝑥𝑘):
𝐽 𝑥0 = 𝑟(𝑥𝑘, 𝑢(𝑥𝑘))
𝑁 𝑘=0
(2.4)
trong đó 𝛾 ∈ 0, 1 Hàm đánh giá 𝑉 𝑥𝑘 của trạng thái 𝑥𝑘, ∀𝑥𝑘 ∈ Ω𝑥 được định nghĩa dưới dạng hồi qui như sau [96]:
𝑉 𝑥𝑘 = 𝑟(𝑥𝑘, 𝑢(𝑥𝑘)) + 𝛾𝑉 𝑓 𝑥𝑘, 𝑢(𝑥𝑘) (2.5) Mục tiêu của giải thuật học củng cố là tìm hàm đánh giá tối ưu 𝑉∗(𝑥0) tương ứng với luật điều khiển tối ưu 𝑢∗(𝑥), ∀𝑥0 ∈ Ω𝑥:
𝑈 𝑥𝑘 = 𝑢1, 𝑢2, … , 𝑢𝑚 là tập tín hiệu điều khiển ở trạng thái 𝑥𝑘 và 𝑥𝑘+1 =
Trang 2616
𝑓 𝑥𝑘, 𝑢(𝑥𝑘) là trạng thái kế tiếp tùy theo tín hiệu điều khiển nào được áp dụng Từ
đó, luật điều khiển tối ưu được định nghĩa:
Hình 2.1 Nguyên lý qui hoạch động Bellman và hàm đánh giá tối ưu
2.3 Các giải thuật học củng cố kinh điển
Các giải thuật học củng cố kinh điển mô tả sau đây xấp xỉ hàm đánh giá và luật điều khiển tối ưu Mặc dù các giải thuật này chỉ điều khiển off-line nhưng đó là nền tảng cơ sở để nghiên cứu mở rộng cho các giải thuật online nâng cao trong luận án
2.3.1 Giải thuật VI (Value Iteration)
Giải thuật VI sau đây mô tả chi tiết các bước xấp xỉ trực tiếp hàm đánh giá tối ưu
𝑉∗ 𝑥𝑘 Khi có 𝑉∗ 𝑥𝑘 , luật điều khiển tối ưu 𝑢∗ 𝑥 được xấp xỉ [96]
Trang 27Bước 3: Xấp xỉ luật điều khiển tối ưu:
2.3.2 Giải thuật PI (Policy Iteration)
Giải thuật PI khởi động sử dụng luật điều khiển ổn định, sau đó xấp xỉ hàm đánh giá trong một bước và cải thiện luật điều khiển dựa vào hàm đánh giá vừa xấp xỉ ở bước tiếp theo [96] Các bước trong giải thuật PI được mô tả như sau:
Trang 2818
Ta thấy rằng, từ phương trình (2.9) đến (2.12), Giải thuật 2.1 và 2.2 đòi hỏi thông tin về mô hình hệ thống 𝑓 𝑥𝑘, 𝑢(𝑥𝑘) , điều này làm giảm khả năng ứng dụng của học củng cố Hạn chế này được giải quyết bằng giải thuật dự báo sai phân tạm thời (Temporal Difference (TD)) [95] Khi đó, luật cập nhật (2.11) sẽ là:
𝑉(𝑖) 𝑥𝑘 = 𝑉(𝑖−1) 𝑥𝑘 + 𝛼 𝑟 𝑥𝑘, 𝑢(𝑖)(𝑥𝑘) + 𝛾𝑉(𝑖−1) 𝑥𝑘+1 − 𝑉(𝑖−1) 𝑥𝑘 (2.13) trong đó 𝑥𝑘+1 là trạng thái mà hệ thống nhận được khi áp dụng luật điều khiển 𝑢(𝑖) tại
𝑥𝑘, 𝛼 ∈ (0,1] là tốc độ học Nhìn vào phương trình (2.13) ta thấy rằng hàm đánh giá được cập nhật không cần sử dụng mô hình của hệ thống Sau khi 𝑉(𝑖) 𝑥𝑘 ở (2.13) được cập nhật, luật điều khiển 𝑢(𝑖+1) ở Bước 4 của giải thuật 2.2 được cập nhật ngay
mà không mà không cần phải chờ đợi sự hội tụ của hàm đánh giá ở Bước 3 Giải thuật
PI sử dụng luật cập nhật TD, bảo đảm rằng luật điều khiển xấp xỉ sẽ hội tụ đến giá trị tối ưu [51] Tuy nhiên, TD chỉ sử dụng được trong các giải thuật off-line
2.3.3 Giải thuật Q-Learning
Thay vì xấp xỉ hàm 𝑉 𝑥𝑘 như giải thuật VI hoặc PI, giải thuật 𝑄-Leanring xấp
xỉ hàm 𝑄(𝑥𝑘, 𝑢𝑘) chứa tổ hợp biến trạng thái và tín hiệu điều khiển ứng, trong đó ở mỗi bước lặp, luật cập nhật hàm 𝑄(𝑥𝑘, 𝑢𝑘) được định nghĩa dựa vào luật TD [115]:
𝑄(𝑙+1) 𝑥𝑘, 𝑢𝑘 = 𝑄(𝑙) 𝑥𝑘, 𝑢𝑘
+𝛼 𝑟 𝑥𝑘, 𝑢𝑘 + 𝛾 argmin
∀𝑎∈𝑈(𝑥𝑘+1)
𝑄(𝑙) 𝑥𝑘+1, 𝑎 −𝑄(𝑙) 𝑥𝑘, 𝑢𝑘 (2.14) trong đó 𝛼 ∈ 0, 1 là tốc độ học Khi 𝑄(𝑥𝑘, 𝑢𝑘) hội tụ về hàm đánh giá tối ưu
𝑄∗ 𝑥𝑘, 𝑢𝑘 , luật điều khiển tối ưu sẽ là:
𝑢𝑘∗ = argmin
∀𝑢 𝑘 ∈𝑈(𝑥 𝑘 )
Giải thuật 2.3 Q-Learning
Bước 1: Rời rạc hóa không gian trạng thái để có tập Ω𝑥, lượng tử hóa tín hiệu điều khiển để có tập 𝑈(𝑥𝑘) ∀𝑥𝑘 ∈ Ω𝑥 , ∀𝑢𝑘 ∈ 𝑈(𝑥𝑘) khởi tạo 𝑄 𝑥𝑘, 𝑢𝑘 = 0
Bước 2: Xấp xỉ hàm đánh giá 𝑄:
𝑙 ← 𝑙 + 1
Vòng lặp ngoài ∀𝑥𝑘 ∈ Ω𝑥:
Lặp vòng trong ∀𝑢𝑘 ∈ 𝑈(𝑥𝑘):
Trang 292.4 Xấp xỉ hàm trong RL
2.4.1 Sự cần thiết phải sử dụng xấp xỉ hàm trong RL
Trong Giải thuật 2.1 và 2.2, ở mỗi bước lặp, hàm 𝑉 𝑥𝑘 phải được cập nhật và lưu trữ với mọi trạng thái 𝑥𝑘, và trong Giải thuật 2.3, ở mỗi bước lặp, hàm 𝑄 𝑥𝑘, 𝑢𝑘 được cập nhật và lưu trữ với mọi tổ hợp 𝑥𝑘 và 𝑢𝑘 Do đó, nếu áp dụng các giải thuật này trong điều khiển sẽ tồn tại một số hạn chế sau:
- Chỉ áp dụng được cho hệ thống với số lượng hữu hạn các điểm giá trị trạng thái và tín hiệu điều khiển rời rạc Trong trường hợp hệ thống với không gian trạng thái và tín hiệu điều khiển liên tục, có vô số điểm giá trị cần rời rạc thì chi phí tính toán không cho phép các giải thuật trên lặp qua toàn bộ các điểm này để cập nhật và lưu trữ hàm đánh giá một cách tường minh
- Với giải thuật Q-learning, chi phí lưu trữ và tính toán tăng theo hàm mũ (𝛺𝑥 𝑈(𝑥) ) giữa số lượng các điểm trong không gian trạng thái với số lượng tín hiệu điều khiển phân rã ở mỗi trạng thái Điều này dẫn đến việc bùng nổ tổ hợp
- Đối với hệ thống nhiều ngõ vào ra, cấu trúc dữ liệu lưu trữ đòi hỏi mảng hoặc
Trang 3020
ma trận đa chiều, khó có thể xử lý dữ liệu với kích cỡ mỗi chiều lớn hàng trăm
Sẽ giảm được chi phí tính toán nếu giá trị hàm ở các điểm trong không gian trạng thái chưa được cập nhật có thể nội suy được từ giá trị hàm của những điểm lân cận đã được cập nhật Xấp xỉ hàm là một trong những công cụ hữu hiệu có thể giải quyết được vấn đề này [99], [123] Ngoài ra, khi sử dụng xấp xỉ hàm thì tài nguyên lưu trữ không còn là vấn đề thách thức bởi vì lưu trữ tường minh hàm đánh giá của từng điểm trạng thái riêng biệt là điều không cần thiết
2.4.2 Yêu cầu về xấp xỉ hàm trong RL
Trong học củng cố người ta quan tâm đến các xấp xỉ hàm [1], [99] thỏa mãn yêu cầu:
- Khả năng xấp xỉ luật điều khiển cho các trạng thái liên tục chưa được cập nhật
từ các trạng thái đã được cập nhật mà không cần thiết phải rời rạc hoá không gian trạng thái và đi qua mọi quỹ đạo trạng thái
- Cấu trúc càng đơn giản càng tốt
- Tham số bộ xấp xỉ hàm được cập nhật online từ các trạng thái hồi tiếp, không
có tín hiệu đúng, sai mong muốn để điều chỉnh như phương pháp học giám sát
- Thông tin học trong quá khứ phải được đánh giá và lưu trữ càng nhiều càng tốt
để cải thiện kết quả ở tương lai, tuy nhiên tài nguyên lưu trữ càng nhỏ càng tốt
- Có khả năng xấp xỉ cục bộ để nâng cao hiệu quả tính toán
Đến nay đã có nhiều nghiên cứu và ứng dụng về xấp xỉ hàm Thành công và thất bại của mỗi loại còn tùy thuộc vào từng bài toán điều khiển cụ thể và cách chọn trước các thông số và cấu trúc ban đầu cho từng bộ xấp xỉ cũng như cách thiết kế luật cập nhật sao cho tham số bộ xấp xỉ không chỉ hội tụ mà còn đảm bảo hệ kín luôn ổn định trong quá trình học và điều khiển online
Phương pháp xấp xỉ bình phương tối thiểu (Least Square (LS)) tuy đơn giản nhưng thiếu khả năng xấp xỉ so với phương pháp “hộp đen” như NN Brartke và Barto [3] đã áp dụng giải thuật sai phân tạm thời (TD) cho LS để tạo ra giải thuật học LSTD Tuy nhiên, sau khi hàm đánh giá được học, luật điều khiển không thể cải thiện tốt hơn nữa nếu mô hình hệ thống động không có sẵn Stephan Ten Hagen [4] đã kết hợp giải thuật Q-learning với NN truyền thẳng để học điều khiển hệ thống với không gian trạng
Trang 3121
thái liên tục Tuy nhiên, để xấp xỉ luật điều khiển hồi tiếp phi tuyến tối ưu, cần phải có sẵn bộ điều khiển LQR nhằm thu thập mẫu huấn luyện, và NN bị ràng buộc phải duy trì giá trị các trọng số giữa lớp ẩn và lớp ra đủ nhỏ trong suốt quá trình học
2.5 Các loại xấp xỉ hàm trong RL, so sánh và đánh giá
Các loại xấp xỉ hàm sử dụng NN [1] được trình bày trong Phụ lục A là cơ sở để thiết kế giải thuật RL dựa vào xấp xỉ hàm, trong đó cấu trúc và luật cập nhật trọng số cho các loại xấp xỉ hàm khác nhau được giới thiệu, bao gồm nhóm xấp xỉ hàm truyền thẳng nhiều lớp MLP (Multi-Layer Perceptron), nhóm xấp xỉ hàm cơ sở xuyên tâm RBF (Radial Basis Function) với các phiên bản khác nhau như: RBF chuẩn hóa NRBF (Normalized Radial Basis Function), RBF cấp phát tài nguyên động RARBF (Resource Allocating Radial Basis Function) và RBF thích nghi chuẩn hóa (Adaptive NANRBF Normalized Radial Basis Function), và cuối cùng là nhóm xấp xỉ hàm mô phỏng theo mô hình tiểu não CMAC (Cerebellar Model Articulation Controller) Trong Phụ lục A, khả năng xấp xỉ của mỗi nhóm xấp xỉ hàm được so sánh theo các tiêu chí: sai số, tốc độ hội tụ, tài nguyên lưu trữ và chi phí tính toán nhằm tìm ra loại xấp xỉ hàm phù hợp cho nghiên cứu tiếp theo Kết quả so sánh cho thấy rằng xấp
xỉ hàm MLP mặc dù chậm hội tụ nhưng cấu trúc đơn giản, tính toán không phức tạp, đặc biệt là tài nguyên lưu trữ rất nhỏ so với các xấp xỉ hàm còn lại Đó là lý do tại sao, hầu hết các giải thuật RL gần đây đều sử dụng loại xấp xỉ hàm này, đặc biệt là NN truyền thẳng sử dụng cấu trúc một lớp thể hiện trên H A.2 [43], [67], [84], [123], nhằm tránh sử dụng giải thuật lan truyền ngược không hiệu quả về tốc độ hội tụ Cốt lõi của vấn đề là luật cập nhật off-line của xấp xỉ hàm này không còn phù hợp để điều khiển online Vì vậy, bài toán thiết kế mới luật cập trọng số online được đặt ra
Một số thuộc tính cần thiết của xấp xỉ hàm truyền thẳng một lớp được trình bày sau đây nhằm phục vụ cho việc thiết kế giải thuật online ở những chương tiếp theo
2.6 Thuộc tính của NN truyền thẳng một lớp
Với xấp xỉ hàm truyền thẳng sử dụng NN một lớp ẩn có cấu trúc trên H A.2, ta
có các định nghĩa và tính chất sau:
Định nghĩa 2.4: Chuỗi hàm 𝑓𝑘(𝑥) được gọi là hội tụ đều đến 𝑓(𝑥) trong tập đóng Ω𝑥 nếu ∀ε > 0, ∃𝑁 𝜀 : sup𝑥∈Ω 𝑓𝑛 𝑥 − 𝑓(𝑥) < 𝜀
Trang 3222
Định lý xấp xỉ bậc cao Weierstrass (Weierstrass higher-order approximation Theorem) trong [37] và kết quả trong [48] phát biểu rằng luôn tồn tại tập cơ sở độc lập hoàn toàn (complete independent basis set) 𝜙(𝑥) để hàm khả vi liên tục 𝑓(𝑥) và gradient của nó được xấp xỉ đều (uniformly approximated), đó là tồn tại các hệ số 𝑤𝑖:
𝑓 𝑥 = 𝑤𝑖𝜙𝑖(𝑥)
∞ 𝑖=1
𝑓 𝑥 = 𝑊1𝑇𝜙(𝑥) + 𝑤𝑖𝜙𝑖(𝑥)
∞ 𝑖=𝑛+1
(2.19)
trong đó, 𝜙 𝑥 = 𝜙1 𝑥 , 𝜙2 𝑥 , … , 𝜙𝑛(𝑥) 𝑇 ∈ ℝ𝑛, 𝑊1 = 𝑤1, 𝑤2, … , 𝑤𝑛 𝑇 ∈ ℝ𝑛 Các số hạng cuối bên vế phải của phương trình (2.18) và (2.19) hội tụ đều về không khi 𝑛 → ∞ (Đặc biệt nếu tập cơ sở là trù mật (dense) trong chuẩn Sobolev 𝕎1,∞[12]) Vậy, nếu sử dụng NN để xấp xỉ hàm, ta có thể biểu diễn:
sẽ bị chặn bởi các hằng số dương trong tập đóng [48]
2.7 Giải thuật qui hoạch động thích nghi sử dụng xấp xỉ hàm
Để xấp xỉ luật điều khiển online trong giải thuật PI, các nghiên cứu [43], [67], [84], [123] (xem thêm các tài liệu tham khảo trong đó) đề xuất cấu trúc ADP (còn gọi
là cấu trúc AC) sử dụng hai hoặc ba xấp xỉ hàm (H 1.2 hoặc H 1.3) Các xấp xỉ hàm trong ADP chủ yếu là các NN truyền thẳng một lớp có Thuộc tính 2.1 NN thứ nhất
Trang 3323
đóng vai trò critic (Critic Neural Network (CNN)) dùng để xấp xỉ online hàm đánh giá tối ưu, các NN còn lại đóng vai trò actor (Actor Neural Network (ANN)) xấp xỉ luật điều khiển tối ưu (2.8) Luật cập nhật tham số của các NN phụ thuộc lẫn nhau ANN cập nhật trọng số sử dụng tín hiệu từ CNN Cấu trúc hai NN này đã được sử dụng trong bài toán điều khiển hệ phi tuyến với ngõ vào ràng buộc bão hòa [2], [3]
Giải thuật cập nhật các xấp xỉ hàm ADP trong điều khiển tối ưu cho hệ phi tuyến (1.1) có hai loại: Trọng số các NN cập nhật tuần tự ở hai bước lặp khác nhau [108]- [110] hoặc trọng số NN cập nhật đồng bộ trong một bước lặp [100], [101], [106] Hai loại giải thuật này được trình như sau
Giải thuật 2.4 ADP sử dụng hai NN cập nhật tuần tự
Bước 1: Khởi tạo tham số xấp xỉ hàm cho CNN và ANN, xấp xỉ hàm đánh giá 𝑉(0) dựa vào CNN và luật điều khiển 𝑢0 dựa vào ANN, gán 𝑙 = 0
Bước 2: Cập nhật tham số cho hàm đánh giá:
Sử dụng 𝑢(𝑙) điều khiển hệ thống thu thập mẫu dữ liệu để cập nhật trọng số cho CNN
Xác định hàm đánh giá 𝑉(𝑙+1) dựa vào CNN
Bước 3: Cập nhật tham số cho luật điều khiển:
Cập nhật ANN dựa vào gradient của 𝑉(𝑙+1)
Xác định luật điều khiển 𝑢(𝑙+1) dựa vào ANN
Bước 4: Xác định điều kiện kết thúc giải thuật: Nếu thỏa tiêu chuẩn hội tụ 𝑉(𝑙)−
𝑉(𝑙+1) ≤ 𝛿 với 𝛿 là số dương đủ nhỏ thì kết thúc giải thuật, ngược lại gán 𝑙 ← 𝑙 + 1
quay về Bước 2
Giải thuật 2.5 ADP sử dụng hai NN cập nhật đồng bộ
Bước 1: Khởi tạo tham số xấp xỉ hàm cho CNN và ANN, xấp xỉ hàm đánh giá 𝑉(0) dựa vào CNN và luật điều khiển 𝑢(0) dựa vào ANN, gán 𝑙 = 0
Bước 2: Cập nhật tham số:
Cập nhật trọng số CNN và ANN
Xác định hàm đánh giá 𝑉(𝑙+1) dựa vào CNN, và 𝑢(𝑙+1) dựa vào ANN
Trang 3424
Bước 3: Xác định điều kiện kết thúc giải thuật: Nếu thỏa tiêu chuẩn hội tụ 𝑉(𝑙)−
𝑉(𝑙+1) ≤ 𝛿 với 𝛿 là số dương đủ nhỏ thì kết thúc giải thuật, ngược lại gán 𝑙 ← 𝑙 + 1
quay về Bước 2
Giải thuật 2.4 và 2.5 sử dụng hai NN Sau đây là các giải thuật ADP sử dụng ba
NN (CNN, ANN1, ANN2) để giải bài toán điều khiển tối ưu 𝐻∞ cho hệ phi tuyến, trong đó thời điểm cập nhật trọng số NN về cơ bản khác với hai giải thuật nêu trên Tùy theo cách cập nhật, ta chia thành hai loại: Hoặc trọng số CNN, ANN1 và ANN2 được cập nhật tuần tự ở ba bước lặp khác nhau [109], [112] (Giải thuật 2.6) hoặc trọng
số CNN cập nhật đồng bộ với ANN1 nhưng ANN2 lại cập nhật tuần tự trong một bước lặp khác [103], [104], [100] (Giải thuật 2.7)
Giải thuật 2.6 ADP sử dụng ba NN cập nhật tuần tự
Bước 1: Khởi tạo tham số xấp xỉ hàm cho CNN và ANN1, ANN2, xấp xỉ hàm đánh giá
𝑉(0) dựa vào CNN và luật điều khiển 𝑢(0) dựa vào ANN1, luật nhiễu xấu nhất 𝑑(0) dựa vào ANN2, gán 𝑙 = 0
Bước 2: Cập nhật tham số cho hàm đánh giá:
Sử dụng 𝑢(𝑙) và 𝑑(𝑙) điều khiển hệ thống thu thập mẫu dữ liệu để cập nhật trọng số CNN
Xấp xỉ hàm đánh giá 𝑉(𝑙+1) dựa vào CNN
Bước 3: Cập nhật tham số cho luật điều khiển:
Cập nhật trọng số ANN1 dựa vào gradient của 𝑉(𝑙+1) cho đến khi hội tụ
Xác định luật điều khiển 𝑢(𝑙+1) dựa vào ANN1
Bước 4: Cập nhật tham số cho luật nhiễu:
Cập nhật trọng số ANN2 dựa vào gradient của 𝑉(𝑙+1) cho đến khi hội tụ
Xác định luật nhiễu 𝑑(𝑙+1) dựa vào ANN2
Bước 5: Xác định điều kiện kết thúc giải thuật: Nếu thỏa tiêu chuẩn hội tụ 𝑉(𝑙)−
𝑉(𝑙+1) ≤ 𝛿 với 𝛿 là số dương đủ nhỏ thì kết thúc giải thuật, ngược lại gán 𝑙 ← 𝑙 + 1
quay về Bước 2
Trang 3525
Giải thuật 2.7 ADP sử dụng ba NN cập nhật đồng bộ
Bước 1: Khởi tạo tham số xấp xỉ hàm cho CNN và ANN1, ANN2, xấp xỉ hàm đánh giá
𝑉(0) dựa vào CNN và luật điều khiển 𝑢(0) dựa vào ANN1, luật nhiễu xấu nhất 𝑑(0) dựa vào ANN2, gán 𝑙 = 0
Bước 2: Cập nhật tham số hàm đánh giá và luật điều khiển:
Cập nhật đồng thời trọng số CNN và ANN1 cho đến khi ANN1 hội tụ
Tính hàm đánh giá 𝑉(𝑙+1)dựa vào CNN, 𝑢(𝑙+1) dựa vào ANN1
Bước 3: Cập nhật tham số luật nhiễu:
Cập nhật trọng số ANN2 dựa vào gradient của 𝑉(𝑙+1) cho đến khi hội tụ
Tính 𝑑(𝑙+1) dựa vào ANN2
Bước 4: Xác định điều kiện kết thúc giải thuật: Nếu thỏa tiêu chuẩn hội tụ 𝑉(𝑙)−
𝑉(𝑙+1) ≤ 𝛿 với 𝛿 là số dương đủ nhỏ thì kết thúc giải thuật, ngược lại gán 𝑙 ← 𝑙 + 1
quay về Bước 2
Các giải thuật cập nhật đồng bộ 2.5 hoặc 2.7 được chứng minh là hiệu quả hơn so với các giải thuật cập nhật tuần tự 2.4 hoặc 2.6 về tốc độ hội tụ [100] Vì vậy, các giải thuật cập nhật đồng bộ được chọn để phục vụ cho việc nâng cấp mở rộng các giải thuật học củng cố trong Luận án Tuy nhiên, tất cả các giải thuật nêu trên sử dụng nhiều hơn một NN, do đó chi phí cập nhật và tài nguyên lưu trữ, tốc độ hội tụ vẫn còn là vấn đề thách thức, đặc biệt nếu NN có nhiều ngõ vào và cấu trúc nhiều nút ẩn Vì vậy, rút gọn bớt số lượng NN trong các giải thuật là một trong những hướng nghiên cứu quan trọng cần thực hiện tiếp theo
2.8 Tóm tắt
Lý thuyết cơ sở về RL được giới thiệu trong chương này RL kế thừa lý thuyết
DP để phát triển thành phương pháp ADP giải bài toán điều khiển tối ưu Các giải thuật cơ bản PI và VI cũng được giới thiệu Các giải thuật này thực hiện off-line và đòi hỏi phải hệ thống phải có sẵn mô hình toán chính xác Ngược lại, giải thuật Q-Learning khắc phục nhược điểm phụ thuộc mô hình Tuy nhiên, Q-Learning liên quan đến tổ hợp trạng thái rời rạc và tín hiệu điều khiển được lượng tử hóa Điều này gây ra
Trang 3626
hiện tượng bùng nổ tổ hợp và phụ thuộc vào kinh nghiệm người thiết kế Do đó, Learning không đáp ứng được các ứng dụng điều khiển online trong thực tế với không gian trạng thái và tín hiệu điều khiển liên tục
Q-Lý do sử dụng xấp xỉ hàm trong RL được đề cập Từ đó, các loại NN sử dụng cho xấp xỉ hàm được giới thiệu, so sánh và đánh giá NN truyền thẳng một lớp có cấu trúc đơn giản, tính toán không phức tạp, đặc biệt là tài nguyên lưu trữ rất thấp so với các xấp xỉ hàm MLP, RBF, NRBF, RARBF, ANRBF và CMAC
Trong cấu trúc ADP, NN truyền thẳng một lớp thường được sử dụng Nếu thiết
kế luật cập nhật trọng số và giải thuật phù hợp, NN này có thể trở thành bộ điều khiển online Đến nay, tồn tại hai loại giải thuật học củng cố để cập nhật trọng số online cho
NN này Giải thuật ADP trong điều khiển tối ưu cập nhật trọng số đồng bộ trong một bước lặp, tuần tự trong hai bước lặp Trong khi đó, giải thuật ADP trong điều khiển tối
ưu 𝐻∞ cập trọng số đồng bộ trong hai bước lặp hoặc tuần tự trong ba bước lặp Tuy nhiên, các giải thuật ADP sử dụng nhiều NN làm cho quá trình tính toán phức tạp và lãng phí tài nguyên gây giảm tốc độ hội tụ
Sau khi nghiên cứu tổng quan về cơ sở lý thuyết RL, các giải thuật học củng cố trên nền tảng lý thuyết qui hoạch động thích nghi sẽ được phân tích và thiết kế ở các chương tiếp theo
Trang 37
Để khắc phục hạn chế nêu trên, nhiều giải thuật xấp xỉ nghiệm ARE hoặc HJB online dựa trên lý thuyết cơ sở của RL đã được đề xuất Các nghiên cứu [42], [49],[56], [98], [110] thực hiện bài toán xấp xỉ thích nghi online nghiệm ARE cho hệ tuyến tính liên tục và rời rạc với các ma trận trạng thái không biết, trong khi đó [30]-[32], [38], [53], [56], [84], [92], [101], [113], [128]-[129] xấp xỉ thích nghi online nghiệm HJB cho hệ phi tuyến Các phương pháp này sử dụng giải thuật PI với cấu trúc ADP chuẩn gồm hai xấp xỉ hàm, đó là hai NN truyền thẳng [57], [101] Luật cập nhật trọng số NN trong các phương pháp này được chứng minh ổn định UUB trong quá trình xấp xỉ online cùng với hàm chi phí và luật điều khiển hội tụ về giá trị cận tối ưu Trong số các giải thuật cập nhật trọng số NN, đáng chú ý nhất là PI cập nhật đồng bộ, trong đó tốc độ hội tụ đã được cải thiện đáng kể [100], [101] Tuy nhiên, sử dụng hai xấp xỉ hàm, chi phí tính toán và tài nguyên lưu trữ vẫn còn là vấn đề thách thức
Để khắc phục hạn chế sử dụng nhiều xấp xỉ hàm trong cấu trúc điều khiển, chương này đề xuất giải thuật học củng cố qui hoạch động thích nghi online (OADP) với cấu trúc điều khiển chỉ sử dụng duy nhất một xấp xỉ hàm Điều quan trọng là luật cập nhật tham số và giải thuật điều khiển sẽ được thiết kế phù hợp để đạt được các mục tiêu đặt ra, đó là tốc độ hội tụ nhanh hơn so với [100], [101], trong khi nghiệm HJB vẫn được xấp xỉ và hệ kín luôn duy trì ổn định
Trang 3828
3.1 Học củng cố trong điều khiển tối ƣu
3.1.1 Mô tả bài toán
Xét lớp hệ thống phi tuyến mô tả bởi:
𝑥 𝑡 = 𝑓 𝑥 𝑡 + 𝑔 𝑥 𝑡 𝑢 𝑥 𝑡 (3.1) trong đó 𝑥 ∈ ℝ𝑛 là véc tơ trạng thái, 𝑢 ∈ ℝ𝑚 là véc tơ tín hiệu điều khiển và 𝑓 𝑥 ∈
ℝ𝑛, 𝑔 𝑥 ∈ ℝ𝑛 ×𝑚 là véc tơ và ma trận hàm phi tuyến khả vi liên tục giả sử biết trước
Giả thiết 3.1: Cho trước tập Ω𝑥 ⊆ ℝ𝑛 chứa gốc 0, tồn tại 𝑓(0) = 0 và 𝑓 𝑥 +
𝑔 𝑥 𝑢 𝑥 liên tục Lipschitz trên Ω𝑥; Tồn tại luật điều khiển liên tục 𝑢 𝑡 để hệ kín (3.1) ổn định tiệm cận trên Ω𝑥
Giả thiết 3.2: 𝑔𝑚𝑖𝑛 ≤ 𝑔 𝑥 ≤ 𝑔𝑚𝑎𝑥, trong đó 𝑔𝑚𝑖𝑛 và 𝑔𝑚𝑎𝑥 là các hằng số dương
Chú ý 3.1: Giả thiết 3.2 thỏa với hầu hết các đối tượng phi tuyến có trong thực tế
[124]-[125], đặc biệt trong lĩnh vực robot luôn tồn tại các ma trận ngõ vào (ma trận khối lượng) xác định dương và bị chặn [32], [36], [82] Giả thiết này chỉ sử dụng trong chứng minh ổn định hệ thống, không sử dụng trong luật điều khiển và luật cập nhật trọng số NN Vì vậy, tìm phương pháp xác định chặn trên và dưới của 𝑔 𝑥 là không cần thiết
Mục tiêu của bài toán học củng cố trong điều khiển tối ưu [100], [101]: Với một tập luật điều khiển hồi tiếp trạng thái 𝑈 𝑥 ∈ Ω𝑢 ⊆ ℝ𝑚, liên tục trong Ω𝑥 và 𝑈 0 =0, tìm luật điều khiển tối ưu 𝑢 𝑡 = 𝑢∗ 𝑥(𝑡) ∈ 𝑈 𝑥 ổn định hệ kín (3.1) trên Ω𝑥 đồng thời cực tiểu phiếm hàm chỉ tiêu chất lượng ràng buộc bởi (3.1)
3.1.2 Phương trình HJB (Hamilton-Jacobi-Bellman)
Định nghĩa hàm chỉ tiêu chất lượng [101]:
𝐽(𝑥 0 ) = 𝑟 𝑥(𝑡), 𝑢(𝑡) 𝑑𝑡
∞ 0
trong đó
với 𝑥 = 𝑥 𝑡 , 𝑢 = 𝑢 𝑡 , 𝑄 𝑥 là hàm xác định dương sao cho ∀𝑥 ≠ 0, 𝑄 𝑥 > 0,
𝑄 𝑥 = 0 ⟺ 𝑥 = 0, 𝑅 ∈ ℝ𝑚 ×𝑚 sao cho 𝑅 = 𝑅𝑇 > 0, 𝑢 ∈ 𝑈(𝑥) là luật điều khiển
Trang 39∆𝑡 𝑡
𝑑𝑡 + 𝑉(𝑥(∆𝑡)) Chuyển vế phương trình (3.5), để ý Giả thiết 3.3, sử dụng định nghĩa về đạo hàm ta có:
𝑑𝑡,
trong đó 𝑉𝑥 = 𝜕𝑉 𝜕𝑥 Sử dụng phương trình (3.1) và (3.3) cho (3.6), ta có:
𝑉𝑥𝑇 𝑓 𝑥 + 𝑔 𝑥 𝑢 + 𝑄 𝑥 + 𝑢𝑇𝑅𝑢 = 0, 𝑉 0 = 0 (3.7) Trong phương trình (3.7), nếu cho trước luật điều khiển 𝑢(𝑥) thì nghiệm 𝑉(𝑥) hoàn toàn xác định Ngoài ra, nếu 𝑢(𝑥) ổn định hệ kín (3.1) thì 𝑉(𝑥) trở thành hàm Lyapunov, khi đó (3.7) là phương trình Lyapunov phi tuyến [100], [101]
Định nghĩa hàm Hamilton:
𝐻 𝑥, 𝑢, 𝑉𝑥 = 𝑉𝑥𝑇 𝑓 𝑥 + 𝑔 𝑥 𝑢 + 𝑄 𝑥 + 𝑢𝑇𝑅𝑢 (3.8) Hàm chỉ tiêu chất lượng tối ưu 𝑉∗(𝑥(0)) được định nghĩa dựa vào (3.2):
𝑢∈𝑈(𝑥)𝐽(𝑥 0 ) = min
𝑢∈𝑈(𝑥) 𝑟 𝑥, 𝑢
∞ 0
Sử dụng xấp xỉ vô cùng nhỏ ∆𝑡, 𝑉∗ 𝑥 có thể viết thành:
Trang 4030
𝑉∗(𝑥(𝑡)) = min
𝑢∈𝑈 𝑟 𝑥, 𝑢
∆𝑡 𝑡
∆𝑡 𝑡