Điều khiển tối ưu tiệm cận cho hệ tay máy có xét đến ảnh hưởng của thành phần bất định

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI --- CHU XUÂN DŨNG ĐIỀU KHIỂN TỐI ƯU TIỆM CẬN CHO HỆ TAY MÁY CÓ XÉT ĐẾN ẢNH HƯỞNG CỦA THÀNH PHẦN BẤT ĐỊNH Chuyên ngành: ĐIỀU KHI

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

-

CHU XUÂN DŨNG

ĐIỀU KHIỂN TỐI ƯU TIỆM CẬN CHO HỆ TAY MÁY

CÓ XÉT ĐẾN ẢNH HƯỞNG CỦA THÀNH PHẦN BẤT ĐỊNH

Chuyên ngành: ĐIỀU KHIỂN VÀ TỰ ĐỘNG HÓA

LUẬN VĂN THẠC SĨ KỸ THUẬT ĐIỀU KHIỂN VÀ TỰ ĐỘNG HÓA

NGƯỜI HƯỚNG DẪN KHOA HỌC

TS ĐÀO PHƯƠNG NAM

HÀ NỘI - 2016

Trang 2

1

MỤC LỤC

LỜI CAM ĐOAN 4

LỜI MỞ ĐẦU 5

CHƯƠNG 1: TÌNH HÌNH NGHIÊN CỨU CHO HỆ TAY MÁY 7

1.1 Tổng quan về Robot công nghiệp 7

1.2 Động lực học Robot 8

1.2.1 Động lực học Euler-Lagrange 8

1.2.2 Tính chất của các thành phần trong phương trình động lực học robot 13

1.3 Robot có ràng buộc 18

1.3.1 Khái niệm ràng buộc (constraint) 18

1.3.2 Động lực học của robot có ràng buộc 19

1.4 Hệ phương trình trạng thái động lực học Robot n thanh nối 21

1.5 Kết luận chương 1 23

CHƯƠNG 2: ĐIỀU KHIỂN TỐI ƯU VÀ CÁC VẤN ĐỀ LIÊN QUAN 24

2.1 Điều khiển tối ưu tiền định 24

2.1.1 Phương pháp biến phân 24

2.1.2 Phương pháp quy hoạch động (Bellman) trong trường hợp hệ liên tục 32

2.1.3 So sánh hai phương pháp Biến phân và Quy hoạch động 37

2.2 Giới thiệu về mạng nơ-ron 41

2.2.1 Cấu trúc và mô hình mạng nơ-ron 41

2.2.2 Những mô hình nơ-ron thường sử dụng 44

2.2.3 Cấu tạo mạng nơ-ron 45

2.2.4 Phương thức làm việc của mạng nơ-ron 48

2.3 Phương pháp điều khiển phản hồi RISE 50

CHƯƠNG 3 : ĐIỀU KHIỂN TỐI ƯU TIỆM CẬN CHO HỆ TAY MÁY CÓ XÉT ĐẾN ẢNH HƯỞNG CỦA THÀNH PHẦN BẤT ĐỊNH 52

3.1 Mở đầu 52

Trang 3

2

3.2 Mô hình động lực học 54

3.3 Mục tiêu điều khiển 56

3.4 Thiết kế điều khiển tối ưu 56

3.5 Xây dựng bộ điều khiển phản hồi RISE 60

3.6 Phân tích tính ổn định và tối ưu 63

3.7 Mở rộng mạng nơ-ron 66

3.7.1 Dự đoán mạng nơ-ron truyền thẳng 66

3.7.2 Sai lệch hệ thống vòng kín 68

3.7.3 Phân tích tính ổn định và tối ưu 71

3.8 Mô phỏng 73

3.8.1 Mô hình hệ thống robot 2 khâu RT 73

3.8.2 Sơ đồ khối điều khiển phản hồi RISE Robot 2 khâu RT trên Simulink 78

3.8.3 Kết quả mô phỏng 80

3.8.4 Kết luận 81

KẾT QUẢ VÀ BÀN LUẬN 82

TÀI LIỆU THAM KHẢO 83

Phụ lục 1 Lập trình Matlab 84

Trang 4

3

DANH MỤC HÌNH VẼ VÀ SƠ ĐỒ

Hình 2.1 Minh họa bài toán điều khiển tối ưu 24

Hình 2.1.2.1 Mô tả nguyên lý tối ưu Bellman 32

Hình 2.1.3 Minh họa ý nghĩ phương pháp quy hoạch động 39

Hình 2.2.1 Một mạng nơ-ron cơ bản gồm hai thành phần 42

Hình 2.2.2 Nơ-ron là khâu MISO 43

Hình 2.2.3 Mạng nơ-ron ba lớp 46

Hình 2.2.4 Mạng MLP 46

Hình 2.2.5 Cấu trúc mạng nơ-ron 47

Hình 3.8.1.1 Mô hình robot 2 khâu RT 74

Hình 3.8.1.2 Tọa độ của các khâu trên robot 75

Hình 3.8.2.1 Mô hình Robot 2 khâu RT trên Simulink 78

Hình 3.8.2.2 Sơ đồ khối điều khiển phản hồi RISE trên Simulink 79

Hình 3.8.3.1 Sai lệch teta 80

Hình 3.8.3.2 Sai lệch d2 80

Trang 5

“Tôi cam đoan rằng, ngoại trừ các kết quả tham khảo từ các công trình khác như

đã ghi rõ trong luận văn, các công việc trình bày trong luận văn này là do chính tôi thực hiện và chưa có phần nội dung nào của luận văn này được nộp để lấy một bằng cấp ở trường này hoặc trường khác”

Trang 6

“Điều khiển tối ưu tiệm cận cho hệ tay máy

có xét đến ảnh hưởng của thành phần bất định”

với mong muốn có được những hiểu biết cho công việc sau này

Trong nội dung của đồ án, em tập trung nghiên cứu sâu về vấn đề ứng dụng lí thuyết điều khiển tối ưu tiệm cận trong việc điều khiển cho đối tượng Robot công nghiệp

Với bố cục thành các chương như sau:

Chương 1 Giới thiệu về Robot công nghiệp Giới thiệu tổng quan về Robot công

nghiệp, về phương trình Euler-Lagrange, cũng như các tính chất của nó

Chương 2 Điều khiển tối ưu và các vấn đề liên quan Nội dung chương giới thiệu về

các phương pháp điều khiển tối ưu gồm: phương pháp biến phân, phương pháp quy hoạch động Bellman, mô hình mạng nơ-ron và phương pháp điều khiển phản hồi RISE

Chương 3 Ứng dụng lí thuyết điều khiển tối ưu tiệm cận cho hệ tay máy Nội dung

của chương là ứng dụng phương pháp điều khiển phản hồi RISE kết hợp với mạng nơ-ron để điều khiển tối ưu tiệm cận hệ tay máy có xuất hiện của nhiễu và các thành phần bất định

Chương 4 Mô phỏng kiểm nghiệm Tiếp tục vấn đề đã bàn ở chương ba, chương này

sẽ đưa ra quyết sách, cách thực thi và kết quả có được với đối tượng đã chọn ở trên

Cuối cùng là những nhận xét, những vấn đề cần bàn thêm xung quanh vấn đề trên

Trang 7

6

Để hoàn thành được luận văn này, em xin được gửi lời cảm ơn tới Giảng viên

- TS ĐÀO PHƯƠNG NAM và tập thể các thầy, cô trong bộ môn Điều khiển tự

động, Viện Điện, Trường Đại học Bách Khoa Hà Nội đã tận tình giảng dạy và hướng dẫn em trong những tháng năm qua, cũng như tạo mọi điều kiện tốt nhất cho em Và

đặc biệt là tới gia đình, đã cổ vũ động viên em trong quá trình thực hiện luận văn này

Cuối cùng, với kiến thức và thời gian hạn chế, em còn để lại nhiều thiếu sót trong luận văn này Vì vậy, em rất mong nhận được sự góp ý từ phía các thầy, các cô cũng như bạn đọc để bản luận văn này được hoàn thiện hơn

Em xin chân thành cảm ơn!

Hà Nội, ngày … tháng … năm 2016 Học viên thực hiện

Chu Xuân Dũng

Trang 8

Vào những năm 40 nhà viết văn viễn tưởng người Nga Issac Asimov mô

tả Robot là một chiếc máy tự động, mang diện mạo của con người, được điều khiển bằng một hệ thần kinh khả trình Pisitron, do chính con người lập trình Asimov đặt tên cho nghành khoa học nghiên cứu về Robot là Robotics, trong

đó có ba nguyên tắc cơ bản sau:

- Robot không được xúc phạm con người và không gây tổn hại cho con người

- Hoạt động của Robot phải tuân theo các nguyên tắc do con người đặt ra Các nguyên tắc này không được vi phạm nguyên tắc thứ nhất

- Một Robot cần phải bảo vệ sự sống của mình và không được vi phạm hai nguyên tắc trước

Các nguyên tắc này đã trở thành nền tảng cho việc thiết kế Robot sau này Đầu thập kỉ 60, công ty Mỹ AMF (American Machine Foundry Company) quảng cáo một loại máy tự động vạn năng và gọi là “Người máy công nghiệp” (Industrial Robot) Ngày nay người ta đặt tên người máy công nghiệp (hay robot công nghiệp) cho những loại thiết bị có dáng dấp và một vài chức năng như tay người được điều khiển tự động để thực hiện một số thao tác sản xuất

Về mặt kỹ thuật, những Robot công nghiệp ngày nay, có nguồn gốc từ hai lĩnh vực kỹ thuật ra đời sớm hơn đó là các cơ cấu điều khiển từ xa

Trang 9

cơ cấu điều khiển từ xa thay thế cho cánh tay của người quan sát: nó gồm có một bộ kẹp ở bên trong (tớ) và hai tay cầm ở bên ngoài (chủ) Cả hai, tay cầm

và bộ kẹp, được nối với nhau bằng một cơ cấu sáu bậc tự do để tạo ra các vị trí và hướng tùy ý của tay cầm và bộ kẹp Cơ cấu dùng để điều khiển bộ kẹp theo chuyển động của tay cầm

Ngày nay, hầu hết các Robot đều được dùng trong công nghiệp Chúng có đặc điểm riêng về kết cấu chức năng đã được thống nhất hóa và thương mại hóa rộng rãi và được gọi là Robot công nghiệp

Robot công nghiệp có hai loại đặc trưng cơ bản:

- Là thiết bị vạn năng được tự động hóa theo chương trình và có thể lập trình lại để đáp ứng một cách linh hoạt, khéo léo các nhiệm vụ tiếp theo

- Được ứng dụng trong các trường hợp mang tính công nghiệp đặc trưng như vận chuyển, xếp dỡ nguyên vật liệu, lắp ráp, đo lường…

Trang 10

9

tay máy Cách tiếp cận của chúng ta là tính động năng và thế năng của tay máy sau đó sử dụng phương trình chuyển động Lagrange

Trong phần này chúng ta bỏ qua động học của động cơ điện hoặc thủy lực

điều khiển cánh tay robot

 Phương trình chuyển động Lagrange

(1.1)

với q là vector tọa độ tổng quát

Phương trình động lực học của tay máy robot có dạng:

Trang 11

10

Động năng tay máy: lấy điểm i trên tay máy có tọa độ i r so với khung tọa

độ i , do đó tọa độ của điểm i so với khung tọa độ gốc là :

i i

T dr

Từ   T i/ q j 0 , ji, chúng ta có thể thay giới hạn trên của tổng bằng n, là

số thanh nối Ma trận T i /q j 4 4 có thể tính nếu ma trận Ti là biết Động năng của một vật vô cùng nhỏ, khối lượng dm tại điểm 1

r có vận tốc

T y

i i T

i link i

I  r r dm (1.8) Chúng ta có thể viết lại động năng của thanh i là

1 1

1 2

Trang 12

Mà m jk m kj nên ma trận quán tính M q  là ma trận đối xứng Động năng

là dương nên động năng bằng không khi q tiến đến không, do đó M q  là

ma trận xác định dương

Trang 13

Với vector trọng trường trong hệ tọa độ cơ sở là g  g g g x y z 0 T

Nếu cánh tay máy ở mức nào đó, giả sử ở mực nước biển và trục z hướng lên trên thì g0 0 9.8602 0T với đơn vị là 2

/

m s Tổng thế năng của tay máy là :

1

n T

với e4 là cột cuối cùng của ma trận đơn vị 4 4 ( e4 0 0 0 1T )

Phương trình Lagrange tay máy là :

Trang 14

Đây là dạng phương trình động lực học thường dùng nhất

Đơn vị của các phần tử trong ma trận M q  tương ứng: biến khớp quay

i i

q   là kg m 2, còn biến khớp tịnh tiến qi  di là kg

Đơn vị các phần tử trong V q q , và G q  tương ứng với các biến: khớp quay là kg m 2/ s2 khớp tịnh tiến là kg m s / 2

1.2.2 Tính chất của các thành phần trong phương trình động lực học robot.

Thực tế phương trình động lực học của tay máy robot luôn chịu ảnh hưởng của ma sát và nhiễu nên khi đó phương trình có dạng như sau

Trang 15

Ma sát không phải là một thành phần dễ mô tả, nó có thể là thành phần khó

mô tả nhất trong mô hình động lực học tay máy

Đôi khi ta viết phương trình động lực học tay máy như sau

T

Một vài biểu thức của M được đưa ra trong phần tiếp theo

Một đặc tính thiết yếu của M q  là tính bị chặn trên, chặn dưới

Tính chất bị chặn của ma trận quán tính cũng có thể viết như sau :

Trang 16

Từ V q v  là tuyến tính trong q ,nó kéo theo V q q , là bậc hai của q Thực

tế nó được biểu diễn là:

I q  q , để     2

Trang 17

Hệ số ma sát là tham số khó xác định nhất trong tay máy

Từ việc ma sát là ảnh hưởng cục bộ, chúng ta giả sử rằng F q  không tách cặp trong các khớp nữa

Trang 18

Với fi là những hàm đã biết, có thể xác định từ tay máy Chúng ta định nghĩa

hàm vec để sử dụng sau này

 

v d

F qF q v q k (1.45)

v, k đã biết từ tay máy và có dạng phù hợp

Một thành phần nữa chứa trong F q  là ma sát tĩnh có dạng

Trang 19

18

 Đặc trưng của thành phần nhiễu

Mô hình động học nào cũng chịu tác động của nhiễu Chúng ta giả sử nhiễu

bị chặn để d d d là hằng số được ước lượng từ tay máy

 Tính chất tuyến tính hóa trong các tham số

Từ một vài hay tất cả các tham số là chưa được biết Phương trình động lực học sẽ tuyến tính hóa trong các thành phần chưa biết

Tính chất này thể hiện như sau

1.3 Robot có ràng buộc

1.3.1 Khái niệm ràng buộc (constraint)

Hệ mô tả bởi q f q q   , G q u thường bị một số điều kiện chặn giới hạn

tọa độ chuyển động của hệ

 Hệ ràng buộc cưỡng bức (holononic constraint, hay holononic system): Nếu các điều kiện ràng buộc có thể được biểu diễn bởi một phương trình liên kết giữa các tọa độ (và thời gian) với dạng tổng quát: h q t , 0, ta gọi

đó là các điều kiện ràng buộc cưỡng bức, nếu có thể lấy tích phân hệ

phương trình liên kết đó Tọa độ chuyển động chỉ phủ một vùng hạn chế

 Hệ ràng buộc không cưỡng bức (holononic constraints, hay holononic system) Nếu các điều kiện ràng buộc không thể được biểu diễn bởi hệ phương trình liên kết giữa các tọa độ (và thời gian) với dạng tổng quát: h q t ,  0, ta gọi đó là các điều kiện ràng buộc không cưỡng bức

Trang 20

non-19

Đối với hệ non-holononic, các tọa độ luôn phụ thuộc lẫn nhau Tọa độ chuyển động không bị hạn chế

1.3.2 Động lực học của robot có ràng buộc

Dựa trên công thức Euler-Lagrange, trong trường hợp không có ma sát, phương trình chuyển động của robot có ràng buộc n thanh nối cứng có thể

viết trong không gian khớp như sau:

Tính chất 1.3.2.2: Đưa ra một ma trận C phù hợp thì M  2C là đối xứng ngược

Giả sử pR n là vector vị trí khâu tác động cuối trong không gian Cartesian Nếu những ràng buộc đặt vào là một mặt liên tục holonomic, thì phương trình đại số cho các ràng buộc có thể viết như sau

 p 0

  (1.50) Với ánh xạ  : Rn  Rm là khả vi bậc hai

Trang 22

1.4 Hệ phương trình trạng thái động lực học Robot n thanh nối

Để viết phương trình động lực học ở dạng phương trình trạng thái, ta định nghĩa các vector sau:

Trang 23

Trong đó x i x x i1, i2T  q q i, iT - là vector trạng thái của thanh i

b Vector đầu vào bậc n:

 1 , 2 , , n T 1 , 2 , , nT

U u u u     (1.66) trong đó ui i - là moment đặt vào cơ cấu chấp hành của thanh thứ i

Phương trình động lực học của Robot (1.24) có thể viết dưới dạng sau:

ở đây f   là hàm vector phi tuyến 2n1 và khả vi liên tục

Khi đó nhận được n hệ phương trình trạng thái theo n khớp, trong đó phương trình trạng thái thứ nhất của mỗi khớp là:

Vì ma trận quán tính M là không đơn nhất nên có thể biểu diễn các vector

trạng thái như sau:

Trang 25

u t để chất lượng quá trình chuyển đổi trạng thái từ

điểm đầu x0 đến điểm cuối xTlà tốt nhất (Hình 2.1)

Hình 2.1 Minh họa bài toán điều khiển tối ưu

2.1.1 Phương pháp biến phân

2.1.1.1 Phát biểu phương pháp

Theo mục 3.2 -Tr 165 tài liệu tham khảo [1]:

Biến phân (variation) là phương pháp được xây dựng từ điều kiện cần cho nghiệm tối ưu * 

u t của tối ưu động, liên tục, phát biểu như sau:

Bài toán 2.1.1.1: Cho hệ liên tục bậc n

Trang 26

là vector của n phương trình mô tả hệ thống

Với các điều kiện ràng buộc:

- U  Rm là một tập con hở trong không gian điều khiển R m

- Khoảng thời gian T xảy ra quá trình tối ưu là cố định cho trước

- Điểm đầu x   0  x0 có thể là cố định cho trước, song cũng có thể là bất

Q x u  c x   g x u t dt 

Nghiệm * 

x t của phương trình (2.1) ứng với tín hiệu điều khiển tối ưu * 

u t

tìm được và cùng điều kiện biên x x0, T được gọi là quỹ đạo tối ưu

Ý tưởng chính của biến phân để giải bài toán 2.1.1.1 có thể được tóm tắt như sau: Từ giả thiết * 

u t là tín hiệu điều khiển tối ưu, * 

x t là quỹ đạo trạng

Trang 27

 ,

dx

f x u

Và vector hàm f x u , liên tục theo x và u

- Cuối cùng, từ điều kiện phải có của tín hiệu điều khiển tối ưu:

Ta xác định tính chất của điều khiển tối ưu * 

u t , gọi là tính chất biến phân

2.1.1.2 Hàm Hamilton

Theo mục 3.2.1 -Tr 166 tài liệu tham khảo [1]:

Định lý 2.1.1.2 (điều kiện cần): Nếu * 

u t là nghiệm tối ưu của bài toán (2.1) không bị ràng buộc, tức là có m

Trang 28

Giả sử điều khẳng định trong định lý là sai, tức là:

H dt u

Trang 29

Theo Tr 175,176,177 tài liệu tham khảo [1]:

Bài toán 2.1.1.3: Cho hệ tuyến tính tham số hằng:

- Khoảng thời gian T xảy ra quá trình tối ưu là cố định cho trước

- Điểm đầu x 0 x0 là tùy ý, nhưng cho trước

- Điểm cuối x T x Tlà bất kỳ

Bàn thêm: một vài nhận xét về bài toán 2.1.1.3:

1) Đây là bài toán không có điều kiện ràng buộc về tín hiệu điều khiển u t 

tức là ở đây có tập U trùng với không gian tín hiệu điều khiển m

UR Nó còn được gọi là bài toán LQ (Linear Quadratic)

2) Giả thiết C D, đối xứng không làm mất tính tổng quát của bài toán, vì trong trường hợp hàm mục tiêu (2.14) có C D, không đối xứng, thì với tính

vô hướng của Q ta có thể thay nó bằng:

Trang 31

Trước tiên, vì C D, là đối xứng nên khi chuyển vị cả hai vế của (2.15) ta có :

trận đối xứng

Thuật toán 2.1.1.3: Tổng hợp bộ điều khiển LQR phản hồi dương

1) Giải phương trình vi phân Riccacti (2.16) với điều kiện biên K t     Chọn lấy nghiệm đối xứng có K   0 bán xác định âm

2) Thay nghiệm K t   tìm được vào biểu thức :

Trang 32

Bàn thêm : Thực tế người ta thường sử dụng bộ điều khiển phản hồi âm, thay

vì phản hồi dương Để có bộ điều khiển R t  phản hồi âm, ta chỉ cần thay ma trận K t   bởi L t     K t   trong phương trình Riccati (2.15) Tương ứng, khi đó thuật toán tổng hợp bộ điều khiển tối ưu R t  phản hồi âm sẽ gồm hai bước như sau :

Thuật toán 2.1.1.4 : Tổng hợp bộ điều khiển LQR phản hồi âm

1) Xác định L t đối xứng có L 0 bán xác định dương từ phương trình vi phân Riccati :

2.1.1.4 Phương pháp tìm nghiệm phương trình vi phân Riccati

Theo Tr 180,181 tài liệu tham khảo [1]:

Để giải phương trình vi phân Riccati (2.15), sử dụng phương pháp Hamilton

Trang 33

Theo mục 3.3 -Tr 201 tài liệu tham khảo [1]:

Nguyên lý tối ưu của Bellman có nội dung như sau: "Mỗi đoạn cuối của quỹ đạo trạng thái tối ưu cũng sẽ là một quỹ đạo trạng thái tối ưu"

Hình 2.1.2.1 Mô tả nguyên lý tối ưu Bellman

Có thể kiểm chứng được ngay tính đúng đắn của nguyên lý Bellman nhờ hình minh họa 2.1.2.1 Giả sử quỹ đạo liền nét đi từ điểm x0 qua x đến xT

là tối ưu, gồm hai đoạn (1) và (2), tương ứng với * * *

1 2

Q Q Q , trong đó phần quỹ đạo cuối là (2) đi từ xđến xT có Q2*, lại không phải tối ưu Vậy thì phải tồn tại đoạn tối ưu từ xđến xT là đoạn (2)’ trên hình với Q2 Q2* Suy ra, dọc theo đoạn (1)-(2)’, hàm Q Q 1* Q*2 sẽ có giá trị nhỏ hơnQ* Q1*Q2* tính

Trang 34

33

theo (1)-(2) Điều này trái với giả thiết rằng đoạn (1)-(2) là tối ưu Tất nhiên rằng phát biểu trên của nguyên lý tối ưu cũng đúng với một đoạn bất kỳ của quỹ đạo trạng thái tối ưu chứ không chỉ riêng đoạn cuối, song ở phương pháp quy hoạch động ta chỉ cần sử dụng đoạn cuối

Bài toán 2.1.2.1: Cho hệ liên tục không dừng, bậc n:

• Khoảng thời gian T xảy ra quá trình tối ưu là cố định cho trước

• Điểm đầu x 0 x0 là tùy ý, nhưng phải cho trước

• Điểm cuối x T x T là bất kỳ

Hãy xác định bộ điều khiển phản hồi trạng thái tối ưu u* u x t ( , )  Uđưa hệ

đi từ x0 tới xT trong khoảng thời gian T sao cho hàm chi phí Q cho bởi

2.1.2.2 Nội dung phương pháp

Theo Tr 202 tài liệu tham khảo [1]:

Trước tiên, từ nội dung nguyên lý tối ưu, ta định nghĩa hàm Bellman:

theo đoạn cuối quỹ đạo

tối ưu từ x t( )  x tớixTbất kỳ (Hình 2.1.2.1b)

Khi đó, theo nguyên lý tối ưu Bellman thì:

Trang 36

Thuật toán 2.1.2.2: Thuật toán quy hoạch động cho hệ liên tục:

1 Từ điều kiện b), tức là từ công thức (2.23) ta xác định được quan hệ phải

có của tín hiệu điều khiển tối ưu *

u với x và B x t( , )

x



 , nói cách khác là xác định quan hệ:

*

( , B( , ))

Trang 37

Ví dụ 2.1.2.2: Minh họa thuật toán quy hoạch động

Hãy tìm nghiệm tối ưu *  

Trang 38

2.1.3 So sánh hai phương pháp Biến phân và Quy hoạch động

Theo Tr 205,206,207,208 tài liệu tham khảo [1]:

Lời giải của ví dụ 2.1.2.2, đặc biệt là phép đổi biến (2.29) chuyển phương trình vi phân HJB về dạng phương trình vi phân thường, là một gợi ý đưa ta đến định lý sau:

Định lý 2.1.3: Nếu áp dụng phương pháp quy hoạch động cho bài toán 2.1.1.3, thì phương trình HJB (2.22) sẽ trở thành phương trình vi phân Riccati (2.15) và điều kiện (2.23) trở thành bộ điều khiển phản hồi trạng thái tối ưu LQR (2.17) Giữa hàm Bellman và biến đồng trạng thái p cũng như với ma trận L(t) của (2.16) có quan hệ:

x

  

   

Trang 40

Từ nội dung định lý 2.1.3 ta còn suy ra thêm được các hệ quả sau:

1 Với phương pháp biến phân, ta đã biết ở bài toán 2.1.1.3, rằng ma trận

2 Ở bài toán 2.1.1.3, ma trận L t  không những phụ thuộc t, mà còn là hàm

của T (hình 2.1.3a) Điều này ta suy ra được từ công thức định nghĩa hàm

Định dạng
Số trang	86
Dung lượng	1,77 MB