17 CHƢƠNG 2 CƠ SỞ LÝ THUYẾT Chƣơng này trình ày t m lƣợc lý thuyết học củng cố, giới thiệu các giải thuật kinh điển của học củng cố, trình bày cấu trúc và luật học đơn giản của các xấp xỉ hàm thông dụng, phát biểu về sự cần thiết phải sử dụng xấp xỉ hàm trong học củng cố Sau đ , các loại xấp xỉ hàm đƣợc so sánh đánh giá, làm cơ sở cho việc nghiên cứu các giải thuật học củng cố dựa vào xấp xỉ hàm ở các chƣơng tiếp theo 2 1 Các địn n ĩ Định nghĩa 2 1 (Uniform Ultimate Bounded UUB) Xét hệ thống phi.
Trang 1CHƯƠNG 2 CƠ SỞ LÝ THUYẾT
Chương này trình ày t m lược lý thuyết học củng cố, giới thiệu các giải thuật kinh điển của học củng cố, trình bày cấu trúc và luật học đơn giản của các xấp xỉ hàm thông dụng, phát biểu về sự cần thiết phải sử dụng xấp xỉ hàm trong học củng cố Sau đ , các loại xấp xỉ hàm được so sánh đánh giá, làm cơ sở cho việc nghiên cứu các giải thuật học củng cố dựa vào xấp xỉ hàm ở các chương tiếp theo
T B x để điều kiện x t( )x c B luôn thỏa với mọi t t0 T B
Định nghĩa 2.2 (Zero-State Observability): Hệ thống (2.1) với ng ra đo được
Trang 22.2 Lý thuyết học củng cố
Hệ thống học củng cố kinh điển trong điều khiển được mô tả bởi :
Tập hữu hạn trạng thái x x x1, 2, ,x n N
Ở mỗi trạng thái xx, có tập hữu hạn các tín hiệu điều khiển U x ( )
Mô hình đối tượng điều khiển x k1 f x u x k, ( k) với u k x k U x k là tín hiệu điều khiển để chuyển trạng thái hệ thống từ x sang k x k1 Ch ý đơn giản
trong cách viết ta định ngh a x k x k( ) và x k1 x k( 1)
Hàm thưởng/phạt, còn gọi là tín hiệu củng cố, r x u x k, ( k) , đ c trưng cho chi phí điều khiển khi áp dụng luật điều khiển ( )u x k ở trạng thái x k
Luật điều khiển ( )u x : x U x( ) sao cho nếu áp dụng u x từ trạng thái ( ) x sẽ 0
phát sinh ra quỹ đạo trạng thái x x x0, 1, 2, , thỏa điều kiện:
0 0
N k
k k k
Trang 3trong đ 0,1 Hàm đánh giá ( )V x k của trạng thái xk, xk x được định ngh a dưới dạng hồi qui như sau [3]:
u x tồn tại nhưng không duy nhất Tuy nhiên, cùng xuất
phát tại x0, hai luật điều khiển tối ưu khác nhau c thể cho tổng chi phí như nhau, vậy V*(x không phụ thuộc vào 0) u x*( ) Giả sử tồn tại V x*( )0 , theo nguyên lý quy hoạch động (DP) tối ưu ellman [10], hàm đánh giá tối ưu của trạng thái xk được định ngh a:
( )
V x là cần thiết Các giải thuật học củng cố thông dụng như l p giá trị,
l p chiến lược và Q-Learning ra đời xấp xỉ hai nghiệm này trên cơ sở phương trình (2.7) ho c /và (2.8)
Trang 4Hình 2.1 Nguyên lý quy hoạch động ellman và hàm đánh giá tối ƣu
2.3 Các giải thuật học củng cố in điển
Các giải thuật học củng cố kinh điển mô tả sau đ y xấp xỉ hàm đánh giá và luật điều khiển tối ƣu M c dù các giải thuật này chỉ điều khiển offline nhƣng đ là nền tảng
cơ sở để nghiên cứu mở rộng cho thuật toán online nâng cao trong luận v n
2.3.1 Giải thuật VI ( Value Iteration )
Giải thuật VI sau đ y mô tả chi tiết các ƣớc xấp xỉ trực tiếp hàm đánh giá tối ƣu
Trang 5thì gán V x*( )k V( )i ( ) xk , x k x sau đ thực hiện ƣớc 3, ngƣợc lại quay về ƣớc 2
ƣớc 3: Xấp xỉ luật điều khiển tối ƣu:
2.3.2 Giải thuật PI (Policy Iteration)
Giải thuật PI khởi động bằng luật điều khiển ổn định, sau đ xấp xỉ hàm đánh giá trong một ƣớc và cải thiện luật điều khiển dựa vào hàm đánh giá vừa xấp xỉ ở ƣớc tiếp theo Các ƣớc trong giải thuật PI đƣợc mô tả nhƣ sau:
Trang 6Ta thấy rằng, từ phương trình (2.9) đến (2.12), giải thuật VI và PI đòi hỏi thông tin
về mô hình hệ thống f x u x ( , ( ))k k , điều này làm giảm khả n ng ứng dụng của học củng cố Hạn chế này được giải quyết bằng giải thuật dự báo sai phân tạm thời (Temporal Difference (TD) Khi đó luật cập nhật (2.11) sẽ là:
trong đ xk1 là trạng thái mà hệ thống nhận được khi áp dụng luật điều khiển u( )i
tại xk, 0,1 là tốc độ học Nhìn vào phương trình (2.13) ta thấy rằng hàm đánh giá được cập nhật không cần sử dụng mô hình của hệ thống Sau khi ( )
( )
i k
V x ở (2.13) được cập nhật, luật điều khiển (i 1)
u ở ước 4 của giải thuật PI được cập nhật ngay mà không cần phải chờ đợi sự hội tụ của hàm đánh giá ở ước 3 Giải thuật PI
sử dụng luật cập nhật TD, bảo đảm rằng luật điều khiển xấp xỉ sẽ hội tụ đến giá trị tối ưu Tuy nhiên, T chỉ sử dụng được trong các giải thuật offline
2.3.3 Giải thuật Q-Learning
Thay vì xấp xỉ hàm ( )V x k như giải thuật VI và PI, giải thuật Q-Learning xấp xỉ hàm Q x u( k, k) chứa tổ hợp iến trạng thái và tín hiệu điều khiển, trong đ ở mỗi ước l p, luật cập nhật hàm ( , )Q x u k k được định ngh a dựa vào luật T :
Trang 7Thuật toán sẽ dừng nếu hàm ( , )Q x u hội tụ về giá trị tối ƣu k Q x u*( , )k
Giải thuật 2.3 Q-Learning
ƣớc 1: Rời rạc h a không gian trạng thái để c tập x , lƣợng tử h a tín hiệu điều khiển để c tập U x ( ),k xk x, u U xk ( )k , khởi tạo ( , ) 0Q x u k k
Trang 82.3.4 Giải thuật chỉ trích thích nghi ( Adaptive Critic-AC)
Khác với giải thuật VI, PI và Q-Learning, giải thuật AC ( giải thuật 2.4) không chỉ
áp dụng cho hệ thống rời rạc mà còn áp dụng cho hệ thống liên tục Giải thuật chứa hai thành phần cần phải đƣợc xấp xỉ Thành phần thứ nhất ( bộ chỉ trích ) ƣớc lƣợng hàm đánh giá ( )V x ho c ( Q x u k, k) và dự báo tổng chi phí k vọng Thành phần thứ hai xấp xỉ luật điều khiển u x ho c ( ) u x ( )k Thành phần này đƣợc điều chỉnh thích nghi dựa vào tín hiệu từ thành phần thứ nhất Hình 2.2 biểu diễn mối quan hệ giữa các thành phần Giải thuật có thể điều khiển đối tƣợng bị tác động bởi nhiễu ngoài Hầu hết các nghiên cứu gần đ y đều sử dụng cấu tr c điều khiển AC
ộ điều khiển
Đối tƣợng điều khiển
Nhiễu
Chỉ trích (Critic)
Hình 2.2 Sơ đồ điều khiển trong thuật toán AC
Trang 9Giải thuật 2.4 AC
ước 1: Khởi tạo V x ( )0 , u x với ( 0) x0 x t ( )0
ước 2: Áp dụng u x t( ( ))vào đối tượng điều khiển nhận trạng thái x t( ) f x u( , )và ( , )
r x u
Cập nhật chỉ trích
( ( )) ( ( ), ( )) ( ( ( ), ( )))
Cập nhật tham số bộ điều khiển u x( )dựa vào V x t( ( ))
ước 3: Nếu V x t( ( ))V f x t u x( ( ( ), ( ))) , với là số dương đủ nhỏ, gán
*
( ( )) ( ( ))
V x t V x t , *
( ) ( )
u x u x dừng thuật toán, ngược lại quay về ước 2
Chú ý: Để thuật toán VI, PI và Q-Learning có thể thực hiện được, yêu cầu phải xác
định trước tập ( )U x k , x k x, chứa các tín hiệu điều khiển rời rạc ở x Việc k
phân rã tập U x( k) phụ thuộc vào sự hiểu biết và kinh nghiệm của người thiết kế đối với hệ thống đang xét Trong một số trường hợp hệ thống đa iến, việc phân rã này rất phức tạp Ngoài ra, các giải thuật nêu trên chỉ phù hợp trong ài toán điều khiển offline
2.4 Xấp xỉ hàm trong RL
2.4.1 Sự cần thiết phải sử dụng xấp xỉ hàm trong RL
Trong giải thuật 2.1 và 2.2, ở mỗi ước l p, hàm V x( k) phải được cập nhật và lưu trữ với mọi trạng thái x , và trong giải thuật 2.3, ở mỗi ước l p, hàm ( k Q x u k, k)được cập nhật và lưu trữ với mọi tổ hợp x và k u o đ , nếu áp dụng các giải thuật k
này trong điều khiển sẽ tồn tại một số hạn chế sau:
Chỉ áp dụng được cho hệ thống với số lượng hữu hạn các điểm giá trị trạng thái
và tín hiệu điều khiển rời rạc Trong trường hợp hệ thống với không gian trạng
Trang 10thái và tín hiệu điều khiển liên tục, c vô số điểm giá trị cần rời rạc thì chi phí tính toán không cho phép các giải thuật trên l p qua toàn ộ các điểm này để cập nhật và lưu trữ hàm đánh giá một cách tường minh
Với giải thuật Q-Learning, chi phí lưu trữ và tính toán t ng theo hàm m
( )
(U x x )giữa số lượng các điểm trong không gian trạng thái với số lượng tín hiệu điều khiển ph n r ở mỗi trạng thái Điều này dẫn đến việc ùng nổ tổ hợp
Đối với hệ thống nhiều ng vào ra, cấu tr c dữ liệu lưu trữ đòi hỏi mảng ho c
ma trận đa chiều, kh c thể xử lý dữ liệu với kích cỡ mỗi chiều lớn
Sẽ giảm được chi phí tính toán nếu giá trị hàm ở các điểm trong không gian trạng thái chưa được cập nhật c thể nội suy được từ giá trị hàm của những điểm l n cận đ được cập nhật Xấp xỉ hàm là một trong những công cụ hữu hiệu c thể giải quyết được vấn đề này Ngoài ra, khi sử dụng xấp xỉ hàm thì tài nguyên lưu trữ không còn là vấn đề thách thức ởi vì lưu trữ tường minh hàm đánh giá của từng điểm trạng thái riêng iệt là điều không cần thiết
2.4.2 Yêu cầu về xấp xỉ hàm trong RL
Trong học củng cố người ta quan t m đến các xấp xỉ hàm thỏa mãn yêu cầu:
Khả n ng xấp xỉ luật điều khiển cho các trạng thái liên tục chưa được cập nhật
từ các trạng thái đ được cập nhật mà không cần thiết phải rời rạc hoá không gian trạng thái và đi qua mọi quỹ đạo trạng thái
Cấu tr c càng đơn giản càng tốt
Tham số ộ xấp xỉ hàm được cập nhật online từ các trạng thái hồi tiếp, không
c tín hiệu đ ng, sai mong muốn để điều chỉnh như phương pháp học giám sát
Thông tin học trong quá khứ phải được đánh giá và lưu trữ càng nhiều càng tốt
để cải thiện kết quả ở tương lai, tuy nhiên tài nguyên lưu trữ càng nhỏ càng tốt
C khả n ng xấp xỉ cục ộ để n ng cao hiệu quả tính toán
Đến nay đ c nhiều nghiên cứu và ứng dụng về xấp xỉ hàm Thành công và thất bại của mỗi loại còn tùy thuộc vào từng ài toán điều khiển cụ thể và cách chọn trước các thông số và cấu tr c an đầu cho từng bộ xấp xỉ c ng như cách thiết kế luật cập
Trang 11nhật sao cho tham số bộ xấp xỉ không chỉ hội tụ mà còn đảm bảo hệ kín luôn ổn định trong quá trình học và điều khiển online
Phương pháp xấp xỉ ình phương tối thiểu (Least Square (LS) tuy đơn giản nhưng thiếu khả n ng xấp xỉ so với phương pháp “hộp đen” như NN Brartke và Barto đ
áp dụng giải thuật sai phân tạm thời (T ) cho LS để tạo ra giải thuật học LSTD Tuy nhiên, sau khi hàm đánh giá được học, luật điều khiển không thể cải thiện tốt hơn nữa nếu mô hình hệ thống động không có sẵn Stephan Ten Hagen đ kết hợp giải thuật Q-Learning với NN truyền th ng để học điều khiển hệ thống với không gian trạng thái liên tục Tuy nhiên, để xấp xỉ luật điều khiển hồi tiếp phi tuyến tối
ưu, cần phải có sẵn bộ điều khiển LQR nhằm thu thập mẫu huấn luyện, và NN bị ràng buộc phải duy trì giá trị các trọng số giữa lớp ẩn và lớp ra đủ nhỏ trong suốt quá trình học
2.5 Giải thuật học củng cố tron điều khiển tối ưu bền vững
Chuẩn H đ ng vai trò quan trọng trong ph n tích và thiết kế hệ thống điều khiển
ền vững từ ài toán điều khiển tối ưu ền vững H cho hệ tuyến tính ằng cách giải phương trình đại số Riccati cho đến hệ phi tuyến ằng cách giải phương trình HJI M c dù lý thuyết điều khiển hiện đại phát triển rất mạnh để giải ài toán điều
khiển H cho hệ phi tuyến nhưng trong nhiều ứng dụng thực tế, giải nghiệm phương trình HJI vẫn còn là vấn đề phức tạp
Phương trình HJI, tương tự phương trình HJ trong giải thuật OA P, thuộc loại phương trình vi ph n không c nghiệm giải tích Vì vậy trong những n m gần đ y,
RL là một trong những phương pháp được nghiên cứu và phát triển để xấp xỉ online
nghiệm HJI Trong điều khiển tối ưu H cho hệ phi tuyến, phương trình HJI n i chung là khó giải hơn phương trình HJ , ởi vì trong phương trình HJI xuất hiện nhiễu
Ngoài ra, các giải thuật nêu trên đòi hỏi luật điều khiển khởi tạo ổn định Để khắc phục nhược điểm sử dụng nhiều xấp xỉ hàm trong giải thuật điều khiển, [21] đ đề
Trang 12xuất giải thuật SOLA (Single Online Approximator) chỉ sử dụng duy nhất một NN Tuy nhiên, giải thuật này yêu cầu phải xác định thông tin về động học nội trong mô hình hệ thống Các nghiên cứu A P nhằm thiết kế giải thuật xấp xỉ luật điều khiển tối ưu không phụ thuộc vào thông tin về động học nội của hệ phi tuyến Tuy nhiên, các giải thuật này chỉ áp dụng cho ài toán giải nghiệm HJ trong điều khiển tối ưu
[32] đ đề xuất giải thuật xấp xỉ online nghiệm HJI để điều khiển tối ưu H sử dụng duy nhất một NN Giải thuật này c nhiều ưu điểm nổi trội, đ là không sử dụng thông tin về động học nội Ngoài ra, tham số của luật điều khiển và luật nhiễu trong giải thuật này được cập nhật đồng ộ trong cùng một ước l p Tuy nhiên, giải thuật này vẫn còn hạn chế, đ là ở mỗi chu k , tham số hệ thống phải ngưng cập nhật trong một khoảng thời gian đủ để lấy mẫu dữ liệu cho lần cập nhật tiếp theo Điều này sẽ ảnh hưởng đến tốc độ hội tụ của hệ thống Ngoài ra, giải thuật này vẫn còn đòi hỏi luật điều khiển khởi tạo ổn định
2.6 Giới thiệu về điều iển OC ie d Oriented Contro
OC được lascke trình ày n m 1971 để điều khiển động cơ cảm ứng (hình 2.3) Mục tiêu của phương pháp OC là điều khiển từ thông và mômen nam ch m điện một cách độc lập Động cơ đồng ộ nam ch m v nh cửu được sử dụng rộng r i trong các thiết ị rô ốt, xe điện hy rid và nhiều ứng dụng động cơ khác, động cơ đồng ộ nam ch m v nh cửu c kích thước nhỏ, hiệu suất cao Điều khiển OC là một phương pháp được sử dụng hiệu quả để điều khiển mômen c ng như tốc độ của động cơ đồng ộ nam ch m v nh cửu Mạch điện tử chuyển đổi nguồn được sử dụng
để tạo ra điện áp/dòng điện mong muốn từ nguồn C Kỹ thuật điều chế độ rộng xung điều khiển công suất chuyển mạch điện tử ằng cách tạo ra một tín hiệu điều khiển được áp dụng cho các cổng của ch ng Điều khiển OC được thực hiện thông qua ộ xử lý tín hiệu kỹ thuật số để điều khiển động cơ đồng ộ nam ch m v nh cửu Các phép iến đổi Clarke và Park được áp dụng cho khung tọa độ “a c”của mô hình động cơ đồng ộ nam ch m v nh cửu để c được hệ trục tọa độ “dq” được sử dụng trong kỹ thuật điều khiển OC
Trang 13b i
Biến đổi Park
n ược
SV
Biến đổi Clarke
Biến đổi Park
+ -
qref I
d I
q I
tr c của n Hình dạng và cấu tr c của PMSM như trong (hình 2.4), (hình 2.5) Các cuộn d y của n được đ t trên stator và sự chuyển mạch được thực hiện ởi mạch ngoài Mạch chuyển là một ộ nghịch lưu chuyển mạch a pha PMSM nên được hoán đổi ằng a giai đoạn dòng điện hình sin, c độ lệch pha 1200
giữa để tạo ra mômen Sơ đồ mạch của mạch nghịch lưu a pha được cho trong (hình 2.6) Các
ng án dẫn được điều khiển ởi các tín hiệu PWM ho c điều chế vector không gian (SVM) để tạo ra dòng điện a pha cần thiết Các dòng điện tạo ra từ thông và mômen là trực giao trong động cơ điện một chiều o đ , c thể kiểm soát dòng một cách độc lập Tuy nhiên, trường rotor và stator không trực giao trong máy điện xoay chiều Chỉ c thể điều khiển dòng điện stator, nhưng c thể điều khiển động cơ xoay chiều như động cơ điện một chiều Điều khiển hướng trường ( OC), một trong
Trang 14những kỹ thuật điều khiển vector, đƣợc sử dụng để điều khiển mômen và từ thông một cách độc lập trong động cơ xoay chiều N c ng iến mô hình AC phức tạp thành mô hình tuyến tính đơn giản OC c một số ƣu điểm khác nhƣ phản hồi động nhanh và hiệu quả cao
Hình 2.4 Hình dạng PMSM
Hình 2.5 Cấu trúc PMSM
Hình 2.6 Mạch chuyển đổi ba pha PMSM
Trang 152.7.1 Mô hình điện từ của động cơ đồng bộ nam châm vĩnh cửu
Động cơ đồng ộ nam ch m v nh cửu c a cuộn d y pha trong stator, được nối Y
ho c nối ∆ và đ t cách nhau 1200 xung quanh ề m t của động cơ Các cuộn d y của stator được ph n ố theo hình sin để giảm thiểu thành phần s ng hài ậc cao và tạo ra từ trường trong khe hở không khí chủ yếu ao gồm thành phần hình sin cơ
ản
Hình 2.7 mô tả một sơ đồ của PMSM với a cuộn d y một pha trong stator và trục
từ của ch ng, một rotor nam ch m v nh cửu với trục từ trường trực tiếp và vuông góc Stator và rotor được làm từ l i sắt, c điện trở thấp hơn nhiều so với khe hở không khí giữa ch ng o đ , từ trường hoàn toàn hướng đến khe hở không khí
o đ , người ta c thể giả định rằng toàn ộ n ng lượng từ trường được chuyển đổi trong khe hở không khí ằng cách ỏ qua từ trở của cả stator và rotor do độ từ thẩm lớn, ằng sắt Hơn nữa, c một trường không đổi xuyên qua khe hở không khí vì
án kính của rotor lớn hơn nhiều so với chiều dài khe hở không khí
Hình 2.7 Sơ đồ của động cơ đồng bộ nam ch m v nh cửu ba pha