Điều khiển thích nghi bám quỹ đạo cho robot RD5NT sử dụng thuật toán LQG kết hợp LFFC

Các phương pháp này ít nhiều cũng đã giải quyết được những khó khăn khi điều khiển robot như hệ có cấu trúc phi tuyến, tham số bất định, thay đổi, ảnh hưởng bởi nhiễu…Với luận văn này tá

Trang 1

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC KỸ THUẬT CÔNG NGHIỆP

ĐẶNG THỊ NGỌC ÁNH

ĐIỀU KHIỂN THÍCH NGHI BÁM QUỸ ĐẠO CHO ROBOT RD5NT SỬ DỤNG THUẬT TOÁN LQG KẾT

HỢP LFFC

LUẬN VĂN THẠC SĨ KỸ THUẬT

CHUYÊN NGÀNH KỸ THUẬT ĐIỀU KHIỂN VÀ TỰ ĐỘNG

HÓA

Thái Nguyên – 2015

Trang 2

LỜI CAM ĐOAN

Tên tôi là: Đặng Thị Ngọc Ánh

Sinh ngày 06 tháng 09 năm 1984

Học viên lớp cao học khoá 14 – Tự động hóa - Trường đại học kỹ thuật Công nghiệp Thái Nguyên

Hiện đang công tác tại Trường đại học kỹ thuật Công nghiệp Thái Nguyên

Xin cam đoan luận văn “ Điều khiển thích nghi bám quỹ đạo cho robot RD5NT sử dụng thuật toán LQG kết hợp LFFC ” do thầy giáo Ts Nguyễn Văn Chí

hướng dẫn là công trình nghiên cứu của riêng tôi Tất cả các tài liệu tham khảo đều

có nguồn gốc, xuất xứ rõ ràng

Tác giả xin cam đoan tất cả những nội dung trong luận văn đúng như nội dung trong đề cương và yêu cầu của thầy giáo hướng dẫn Nếu có vấn đề gì trong nội dung của luận văn tác giả xin hoàn toàn chịu trách nhiệm với lời cam đoan của mình

Thái Nguyên, ngày tháng năm 2015

Học viên

Đặng Thị Ngọc Ánh

Trang 3

LỜI CẢM ƠN

Sau thời gian nghiên cứu, làm việc khẩn trương và được sự hướng dẫn tận tình

giúp đỡ của thầy giáo Ts Nguyễn Văn Chí, luận văn với đề tài “Điều khiển thích

nghi bám quỹ đạo cho robot RD5NT sử dụng thuật toán LQG kết hợp LFFC” đã

được hoàn thành

Tác giả xin bày tỏ lòng biết ơn sâu sắc tới:

Thầy giáo hướng dẫn Ts Nguyễn Văn Chí đã tận tình chỉ dẫn, giúp đỡ tác giả

hoàn thành luận văn

Thầy giáo Ts Nguyễn Duy Cương – Bộ môn Kỹ thuật điện tử - Khoa Điện tử,

cùng các giáo viên Trường Đại học kỹ thuật công nghiệp Thái Nguyên và một số đồng nghiệp, đã quan tâm động viên, giúp đỡ tác giả trong suốt quá trình học tập để hoàn thành luận văn này

Mặc dù đã cố gắng hết sức, song do hạn chế về điều kiện thời gian và kinh nghiệm thực tế của bản thân còn ít nên đề tài không thể tránh khỏi thiếu sót Vì vậy, tác giả mong nhận được sự đóng góp ý kiến của các thầy giáo, cô giáo và các bạn bè đồng nghiệp

Tôi xin chân thành cảm ơn!

Trang 4

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN iii

DANH MỤC CÁC KÝ HIỆU VIẾT TẮT vi

DANH MỤC HÌNH VẼ ………

vi LỜI NÓI ĐẦU viii

CHƯƠNG 1 9

TỔNG QUAN VỀ LQR VÀ LEARNING FEED FORWARD CONTROL (LFFC) 9

1.1 Tổng quan về bộ điều khiển LQG 9

1.1 Bộ điều khiển LQR 9

1.1.2 Bộ quan sát LQE 10

1.1.3 Bộ điều khiển LQG 11

1.2 Tổng quan về Learning Feed-forward Control (LFFC) 12

1.2.1 Điều khiển học (Learning Control - LC) 12

1.2.3 Bộ điều khiển học sử dụng sai lệch phản hồi (Feedback Error Learning - FEL) 16

1.2.4 Learning Feed forward Control (LFFC) 20

1.3 Điều khiển thích nghi theo mô hình mẫu (MRAS) 20

1.4 Bộ điều khiển LFFC trên cơ sở MRAS 24

1.4.1 Khái niệm chung 24

1.4.2 MRAS dựa trên điều khiển feed - forward 26

1.4.3 Luật điều khiển thích nghi 27

CHƯƠNG 2: 32

CÁC KHÁI NIỆM CƠ BẢN, MÔ HÌNH TOÁN HỌC CỦA CÁNH TAY ROBOT HAI BẬC TỰ DO, THIẾT KẾ VÀ MÔ PHỎNG HỆ THỐNG 32

2.1 Các khái niệm cơ bản 32

2.1.1 Cấu tạo robot công nghiệp 32

2.1.2 Tay máy của robot 33

2.1.3 Bậc tự do 33

2.2 Phương trình động học của robot hai bậc tự do 36

2.3 Thiết kế hệ thống điều khiển 38

2.3.1 Chọn mô hình mẫu 38

2.3.2 Xác định đầu vào của phần feed – forward 39

2.3.3 Xác định cấu trúc của phần feed – forward 41

2.3.4 Giải phương trình Lyapunov 41

2.3.5 Chọn hệ số thích nghi 43

Trang 5

2.5 Mô phỏng hệ thống 45

CHƯƠNG 3: KẾT QUẢ THỰC NGHIỆM 47

3.1 Các thiết bị trong hệ thống thực nghiệm 47

3.1.1 Robot RD5NT 47

3.1.2 Bộ điều khiển Dspace 1103 49

3.1.3 Phần mềm Control Desk 50

3.1.4 Mạch cầu H điều khiển động cơ 51

3.1.5 Mạch nguồn cung cấp cho IC 52

3.2 Kết quả thực nghiệm 52

Kết luận và hướng phát triển của đề tài 54

TÀI LIỆU THAM KHẢO 55

Trang 6

DANH MỤC CÁC KÝ HIỆU VIẾT TẮT

tính

Trang 7

DANH MỤC HÌNH VẼ

Hình 1.1: Sơ đồ cấu trúc bộ điều khiển LQR

Hình 1.2: Sơ đồ bộ lọc SVF

Hình 1.3: Sơ đồ bộ quan sát LQE

Hình 1.4: Sơ đồ bộ điều khiển LQG

Hình 1.5: Sơ đồ bộ điều khiển LQG có thêm khâu tích phân

Hình 1.6 Cực tiểu cục bộ trong kỹ thuật học

Hình 1.7: Cấu trúc bộ điều khiển phản hồi sai lệch

Hình 1.8 Học theo sai số phản hồi

Hình 1.9 Bộ điều khiển thích nghi theo mô hình mẫu

Hình 1.10 (a) : MRAS cho sự thích nghi của các tham số bộ điều khiển

Hình 1.10 (b): MRAS với mô hình có thể hiệu chỉnh cho nhận dạng tham số Hình 1.10c: Cấu trúc MRAS với khâu khởi tạo tín hiệu đặt

Hình 1.11: Nhận dạng mô hình ngược của đối tượng

Hình 1.12: Bộ điều khiển LFFC

Hình 2.1: Các thành phần chính của một robot công nghiệp

Hình 2.2 Mô hình cánh tay robot 2 bậc tự do

Hình 2.3 : Cấu trúc bộ điều khiển phần feed forward

Hình 2.4: Sơ đồ cấu trúc bộ điều khiển LQG kết hợp MRAS và LFFC

Hình 2.5: Sơ đồ mô phỏng hệ thống điều khiển

Hình 2.6: Đáp ứng của khớp 1

Hình 2.7: Đáp ứng của khớp 2

Hình 3.1: Robot RD5NT

Hình 3.2: Sơ đồ hệ thống điều khiển RD5NT

Hình 3.3: Sơ đồ khối hệ thống điều khiển RD5NT

Hình 3.4: Bộ điều khiển Dspace 1103

Hình 3.5: Giao diện phần mềm Control Desk

Hình 3.6: Sơ đồ nguyên lý của mạch cầu H sử dụng IC L298

Hình 3.7: Sơ đồ mạch nguồn

Hình 3.8: Đáp ứng thực nghiệm của khớp 1

Hình 3.9: Đáp ứng thực nghiệm của khớp 2

Trang 8

LỜI NÓI ĐẦU

Ngày nay, trong các dây chuyền sản xuất với mức độ tự động hóa cao, robot

công nghiệp đóng vai trò quan trọng trong việc giảm cường độ lao động cho người lao động, tăng năng suất và độ chính xác gia công, giảm giá thành sản phẩm [3]

Mô hình thí nghiệm Cánh tay Robot 5 bậc tự do, nhãn hiệu RD5NT nói riêng

là một mô hình thí nghiệm trường học, mô hình hóa một cánh tay Robot 5 bậc tự do khá phổ biến trong các dây chuyền sản xuất hiện nay Mô hình Cánh tay Robot 5 bậc tự do RD5NT có 5 khớp, mỗi khớp được hoạt động bởi một động cơ điện một chiều Trên thế giới nói chung và ở nước ta nói riêng, trong những năm gần đây, các hoạt động nghiên cứu, phát triển về Robot vẫn không ngừng phát triển và có rất nhiều công trình nghiên đưa các phương pháp để điều khiển cánh tay robot Có thể

kể đến ở đây như, tác giả YaoNan Wang [11] trình bày về phương pháp điều khiển

mờ kết hợp CMAS dựa trên thuật toán wavelet thích nghi, hay tác giả Nguyễn Văn Minh Trí [5] đề xuất bộ điều khiển PID bền vững cho đối tượng tay máy công nghiệp Còn tác giả Nguyễn Mạnh Hùng [4] thiết kế bộ điều khiển dựa trên mạng nơron thích nghi Các phương pháp này ít nhiều cũng đã giải quyết được những khó khăn khi điều khiển robot như hệ có cấu trúc phi tuyến, tham số bất định, thay đổi, ảnh hưởng bởi nhiễu…Với luận văn này tác giả dự định sẽ áp dụng thuật toán LQG kết hợp LFFC (leaning Feedforward Control) để điều khiển tay máy robto RD5NT với mong muốn bộ điều khiển LFFC có khả năng tự học sẽ giải quyết được sự ảnh hưởng của tham số bất định và nhiễu đến chất lượng bám quỹ đạo của tay máy robot, cho phép cải thiện hơn nữa chất lượng điều khiển bám quỹ đạo Vì vậy học

viên đã chọn đề tài “Điều khiển thích nghi bám quỹ đạo cho robot RD5NT sử

dụng thuật toán LQG kết hợp LFFC” là đề tài nghiên cứu cho luận văn thạc sỹ

của mình, trước hết với mục đích thiết kế được bộ điều khiển cho 2 trong 5 bậc cánh tay Robot 5 bậc tự do RD5NT

Sự thành công của phương pháp điều khiển thích nghi bám quỹ đạo cho robot RD5NT sử dụng thuật toán LQG kết hợp LFFC kỳ vọng mang lại khả năng chống nhiễu tốt, chất lượng bám quỹ đạo được nâng cao Đối tượng của đề tài là robot RD5NT tại phòng thí nghiệm của trường ĐH KTCN với mục tiêu thiết kế bộ

Trang 9

Luận văn bao gồm nội dung chính sau:

Chương 1: Tổng quan về LQR và Learning feed forward control (LFFC)

Chương 2: Các khái niệm cơ bản, mô hình toán học của cánh tay robot hai bậc tự

do, thiết kế và mô phỏng hệ thống

Chương 3: Kết quả thực nghiệm

Kết luận và hướng phát triển của đề tài

Do điều kiện thời gian không cho phép, tác giả chỉ dừng lại ở việc thiết kế bộ điều khiển phối hợp 2 trong 5 khớp của mô hình Tuy nhiên, đề tài này sẽ là cơ sở cho các nghiên cứu về sau có thể xây dựng một bộ điều khiển mà có thể điều khiển phối hợp toàn bộ 5 khớp của mô hình

Thái Nguyên, ngày tháng năm 2015

Học viên

Đặng Thị Ngọc Ánh

Trang 10

CHƯƠNG 1

TỔNG QUAN VỀ LQR VÀ LEARNING FEED FORWARD CONTROL

(LFFC)

Chương này đề cập về một phương pháp điều khiển vị trí cánh tay robot, đó

là điều khiển thích nghi áp dụng LQG kết hợp LFFC và cũng giải thích tại sao nó lại nâng cao được độ chính xác trong quá trình điều khiển

1.1 Tổng quan về bộ điều khiển LQG

1.1 Bộ điều khiển LQR

LQR ( Linear Quadratic Regulator) là thuật toán điều khiển xây dựng dựa trên cơ sở nguyên lý phản hồi trạng thái

Cấu trúc của LQR như sau:

Hình 1.1: Sơ đồ cấu trúc bộ điều khiển LQR

Để thực hiện bộ điều khiển LQR, ta cần thiết phải đo tất cả các trạng thái của hệ thống bằng sensor Tuy nhiên, những sensor sẽ bị ảnh hưởng bởi nhiễu, do đó LQR không bền vững với nhiễu, thêm vào đó, khó có thể đo đạc được tất cả các trạng thái của hệ thống Để giải quyết vấn đề này, ta sử dụng bộ lọc biến trạng thái SVF (State Variable Filter) như sau:

Trang 11

Hình 1.2: Sơ đồ bộ lọc SVF

Khi phổ của nhiễu nằm ngoài khoảng dải thông cho qua của bộ lọc thì nhiễu đo

lường sẽ bị loại bỏ bằng cách chọn giá trị w hợp lý Tuy nhiên SVF lại gây ra hiện tượng trễ pha, và có thể giảm bằng cách tăng w Do đó việc chọn w phải thỏa mãn

giữa độ trễ pha và độ nhạy với nhiễu

1.1.2 Bộ quan sát LQE

Để ước lượng các biến trạng thái của hệ thống ta sử dụng bộ LQE (, hay còn gọi là

bộ lọc Kalman hay bộ quan sát trạng thái Bộ lọc Kalman là một bộ xấp xỉ đệ quy, nghĩa là để tính toán trạng thái hiện tại, cần phải yêu cầu trạng thái ở thời điểm trước đó

Hình 1.3: Sơ đồ bộ quan sát LQE Khi thiết kế LQE ta phải xác định hệ số L tối ưu dựa vào tham số đối tượng (quá

trình) và ma trận hiệp phương sai nhiễu hệ thống, nhiễu đo lường

Trang 12

1.1.3 Bộ điều khiển LQG

Bộ điều khiển LQR đơn giản là sự kết hợp giữa LQR và LQE Nghĩa là LQG là phương pháp thiết kế bộ điều khiển phản hồi trạng thái sao cho hàm mục tiêu là nhỏ nhất Cấu trúc như sau:

Hình 1.4: Sơ đồ bộ điều khiển LQG

Việc thiết kế LQR và LQE có thể được thực hiện một cách riêng biệt LQG cho phép tối ưu hóa hệ thống và giảm ảnh hưởng của nhiễu LQE ươc lượng các trạng thái, LQR tính toán các giá trị tối ưu và tính toán tín hiệu điều khiển Tuy nhiên trong khi thiết kế, sai số không được nhận ra một cách tự động Ví dụ như hệ số ma sát Coulomb gây ra sai số tĩnh thì không tuyến tính Ta có thể giải quyết bằng cách đưa thêm bộ tích phân Sai lệch giữa đối tượng và mô hình được tích phân, thay vì sai lệch giữa mô hình và đầu ra của đối tượng Cấu trúc như sau:

Trang 13

Việc thiết kế LQR và LQE là dựa vào phương trình đại số Riccati [10]

1.2 Tổng quan về Learning Feed-forward Control (LFFC)

Trong phần này của luận văn, giới thiệu về LFFC, nhưng trước tiên, đề cập một số khái niệm mới

1.2.1 Điều khiển học (Learning Control - LC)

Các bộ điều khiển học LC thường được hình dung giống như là một hệ

thống điều khiển của con người và do đó nó có các thuộc tính giống với con người Trong luận văn này không nghiên cứu bộ LC theo quan điểm sinh học nhưng dựa trên một số định nghĩa sau:

Định nghĩa 1.1: Một bộ LC là một hệ thống điều khiển bao gồm trong đó

một hàm xấp xỉ các ánh xạ đầu vào – đầu ra tương ứng trong suốt quá trình điều khiển sao cho hoạt động mong muốn của hệ thống điều khiển đạt được

Định nghĩa 1.2 (Hàm xấp xỉ): Một hàm xấp xỉ là một ánh xạ vào/ra được

Lưu ý: (Điều khiển tự học và điều khiển thích nghi): Theo hướng này, điều

khiển thích nghi có thể được xem xét giống như là một dạng của LC trong đó một

bộ xấp xỉ hàm được sử dụng có thể chỉ xấp xỉ một lớp giới hạn của hàm mục tiêu

Thông thường, một bộ LC sẽ bao gồm một bộ xấp xỉ hàm cho một đối tượng có

nhiều hàm mục tiêu hơn

Ta có thể sử dụng nhiều kiểu xấp xỉ hàm như mạng neural, mạng neuro – fuzzy v v Nói chung một cách sơ bộ, các bộ xấp xỉ hàm có thể được sử dụng theo

khiển này được gọi là LC gián tiếp

Từ khi bộ LC đầu tiên được phát triển vào năm 1963 cho tới nay, lĩnh vực

LC đã và đang phát triển rất rộng rãi Rất nhiều các cấu trúc của bộ điều khiển khác

nhau đã được đề xuất và các thuộc tính của chúng (như tính ổn định và tốc độ hội tụ

đã được phân tích cả trong thực tế và lý thuyết) Tuy nhiên, mặc dù tất cả chúng đều

Trang 14

được nghiên cứu nhưng chỉ có một số bộ LC được ứng dụng trong sản phẩm mang

tính thương mại Có thể vì những lý do sau đây:

Việc chứng minh sự ổn định được đánh giá cao Phần lớn các nghiên cứu lý thuyết của bộ LC được tập trung vào tính ổn định Tuy nhiên, một bộ LC ổn định cũng không cần thiết mang lại một đáp ứng ngắn hạn học tốt….Hoạt động của bộ

LC đối với một con robot đã được quan sát bằng mô phỏng Sau khi thực hiện với chuyển động 6 bậc tự do, sai số hiệu chỉnh giảm xuống hệ số 2.8 Khi tiếp tục tự

số hiệu chỉnh nhỏ đã đạt được nhưng bộ LC không có giá trị thực nghiệm vì nó có

dải sai số hiệu chỉnh rất rộng ở giữa

Không nên quá quan tâm tới sai số hiệu chỉnh điểm 0 Một số LC cố gắng

đạt được sai số hiệu chỉnh điểm 0 Tuy nhiên, điều này yêu cầu có những tín hiệu điều khiển lớn ở những tần số trên băng thông hệ thống, các tần số này có thể gây nguy hiểm cho các cơ cấu chấp hành và nói chung là không đạt được như mong

muốn Loại sai số của hàm xấp xỉ Trong đại đa số các bộ LC, hàm xấp xỉ được thực

hiện với vai trò như một mạng nơ ron (Multi Layer Perceptron – MLP) Như chúng tôi sẽ bàn tới ở dưới đây, loại mạng nơ ron này không tương thích một cách đặc biệt cho việc điều khiển

Trên cơ sở những suy xét này, chúng ta có thể đưa ra một số các thuộc tính

sau mà một bộ LC nên để trở thành một mặt hàng ưa chuộng về mặt thương mại:

Dễ dàng sử dụng trong một hệ thống điều khiển có sẵn Điều này có nghĩa

là khi một đáp ứng ngắn hạn học tốt thì hiệu suất cực tiểu được bảo đảm Ví dụ như

là trong một bộ điều khiển hiện nay Thậm chí trong suốt quá trình huấn luyện đối tượng vẫn có thể được duy trì trong quá trình vận hành mà không gây ra những tổn thất của quá trình sản xuất

Có khả năng sử dụng những kiến thức dự đoán của đối tượng Nói chung các nhà thiết kế và/hoặc người vận hành có một số kiến thức về đối tượng, ví dụ như trong cấu trúc của mô hình toán học( đơn giản) dưới dạng các hàm, một giản đồ Bode của đối tượng hoặc một mô tả dưới dạng biến ngôn ngữ của hành vi đối

tượng Bộ LC nên cho phép loại kiến thức này được kết hợp vào trong thiết kế bộ

điều khiển, để chọn các thông số của bộ điều khiển hợp lý và để tốc độ lệ học

Bộ xấp xỉ hàm nên phù hợp cho việc điều khiển Điều này có nghĩa rằng:

Trang 15

Cần sử dụng dung lượng nhớ nhỏ Trong thực tế, bộ điều khiển được thực hiện bằng phần mềm được gắn vào máy tính Dung lượng bộ nhớ là có hạn, do đó

số lượng các thông số của bộ xấp xỉ hàm mà yêu cầu phải xấp xỉ tín hiệu điều khiển không thể quá rộng

Việc tính toán đầu ra của hàm xấp xỉ và sự tương thích của quan hệ vào/ra phải được thực hiện một cách nhanh chóng Trong môi trường thời gian thực, trong một khoảng thời gian lấy mẫu, các thông số của hàm xấp xỉ phải tương ứng

và đầu ra tính được Rất nhiều hệ thống chuyển động cơ điện tử yêu cầu thời gian mẫu nhỏ và cho phép thời gian tính toán là rất ít Các hàm xấp xỉ mà bao gồm một lượng lớn các tính toán phức tạp do đó chúng không phù hợp cho việc điều khiển

Cơ chế học cần hội tụ nhanh Để giữ được lượng thời gian trong đó quá trình vận hành của hệ thống được điều khiển tối ưu từng phần, tiến tới mức cực tiểu, cơ chế học cần hội tụ nhanh

Cơ chế học không nên bị cực tiểu cục bộ, khi bị lưu giữ trong mức cực tiểu cục bộ, thì cơ chế học cho rằng các giá trị đạt được của các thông số của hàm xấp xỉ, được biểu thị bởi loc, sinh ra sai số xấp xỉ cực tiểu, được biểu thị bởi

)

( loc

Hình 1.6 Cực tiểu cục bộ trong kỹ thuật học

Trong hình dưới đây một ví dụ theo một chiều của hiện tượng như vậy được

cấu học mà sử chỉ sử dụng gradient của sai số xấp xỉ thì không thể thoát khỏi mức

cực tiểu cục bộ

Khi cơ chế học dễ dàng lưu lại ở mức tối thiểu cục bộ, rất khó để huấn

luyện LC để thu được hiệu quả cao Quan hệ vào/ ra phải tương thích một cách cục

bộ Trong một số hàm xấp xỉ, quan hệ vào/ ra này là tương thích toàn cục Điều này

Trang 16

có nghĩa là nếu giá trị của một trong các thông số của hàm xấp xỉ được tương thích,

thì quan hệ vào /ra trên toàn bộ phạm vi đầu vào bị thay đổi Xét một bộ LC được huấn luyện để thực hiện một số chuyển động Khi bộ LC được huấn luyện để thực

hiện một chuyển động mới, điều này liên quan tới việc tương ứng các thông số của hàm xấp xỉ Bởi vì mối quan hệ vào ra được tương thích toàn cục nên các tín hiệu điều khiển học trước đó bị thay đổi có thể gây ra nhưng tổn thất trong quá trình làm việc Do đó điều mong đợi ở đây là mối quan hệ vào ra của hàm xấp xỉ được tương thích một cách cục bộ Trong trường hợp này, việc học một chuyển động mới sẽ không làm thay đổi các tín hiệu đã được học trước đó

Hàm xấp xỉ có khả năng tự khái quát hoá tốt Khả năng tự khái quát hoá

là khả năng tạo ra một đầu ra nhạy cho một đầu vào không được thể hiện trong quá trình huấn luyện nhưng nó tương tự như các huấn luyện mẫu Khi hàm xấp xỉ

có khả năng khái quát hoá tốt, bộ LC cũng sẽ thu được một hiệu quả bám cao cho

các chuyển động tương tự các chuyển động được huấn luyện Vì vậy nó đủ để

huấn luyện LC với một lượng nhỏ các đặc tính chuyển động huấn luyện Khi bộ xấp xỉ không có khả năng tự khái quát hoá tốt, bộ LC phải được huấn luyện cho

mỗi chuyển động quan trọng, nó tạo ra một quá trình huấn luyện mở rộng

Sự mềm mại của giá trị xấp xỉ cần điều khiển được Như nói ở phần trước

đây, bộ LC không chỉ thu được sai số bằng không đối với một vài tần số, khi tín

hiệu điều khiển có tần số cao sẽ không thỏa mãn theo mong muốn Người sử dụng phải có khả năng quyết định tần số lớn nhất của đầu ra của hàm xấp xỉ

Đáp ứng ngắn hạn là học tốt Đáp ứng ngắn hạn của bộ LC nên là loại đáp

ứng mà có sai số bám dần hội tụ về giá trị mong muốn Việc tăng sai số bám trong pha trung gian của quá trình học có thể làm hỏng đối tượng, hơn thế nữa, đây là trường hợp quá trình làm việc tối thiểu có thể không còn được bảo đảm khi bộ điều khiển được sử dụng như một thiết bị ghép thêm cho một bộ điều khiển đã có sẵn

Sự ổn định lâu dài cần phải được bảo đảm Việc tự học có thể được thực

hiện một cách liên tục hoặc được thực hiện trước khi vận hành Việc học liên tục được yêu cầu khi các thông số của đối tượng thay đổi trong suốt quá trình vận hành Ví dụ, do hao mòn hay chịu ảnh hưởng của môi trường Trong trường hợp này, một bộ điều khiển phải có khả năng đảm bảo việc học ổn định bất chấp các điều kiện vận hành thay đổi như thế nào

Trang 17

1.2.3 Bộ điều khiển học sử dụng sai lệch phản hồi (Feedback Error Learning - FEL)

Cấu trúc bộ điều khiển này được trình bày ở hình 1.7

Hệ thống LC bao gồm 2 phần:

- Bộ điều khiển Feef-forward: Được biểu thị bằng F, nghĩa là 1 hàm/ánh xạ

r

F

bù thêm cho các hệ thống động học và theo cách này sẽ thu được độ bám chính xác cao Khi bộ điều khiển feed-forward bằng với đối tượng nghịch đảo

1

P

Hình 2.2 Bộ điều khiển phản hồi sai lệch (FEL)

Hình 2.2: Bộ điều khiển phản hồi sai lệch Hình 1.7: Cấu trúc bộ điều khiển phản hồi sai lệch

nhiễu ngẫu nhiên và nhiễu có bản chất chu kỳ Những nhiễu chu kỳ tái diễn giống nhau khi một chuyển động cụ thể được lặp lại Điều này có nghĩa rằng chúng có thể

được xem xét như một hàm trạng thái của đối tượng x và có thể lường trước

- Bộ điều khiển phản phản hồi : Như đã được nói tới, bộ điều khiển phản hồi, C, cung cấp các tín hiệu học cho bộ điều khiển feed-forward Hơn thế, nó

xác định quá trình bám cực tiểu tại thời điểm bắt đầu học Cuối cùng, bộ điều khiển phản hồi bù các nhiễu ngẫu nhiên

Bộ điều khiển FEL đã được thực hiện trong nhiều ứng dụng ví dụ như như:

Hệ thống phanh tự động ô tô

Điều khiển hệ thống camera

Điều khiển cánh tay robot

Máy hàn

Các ứng dụng chỉ ra rằng bộ điều khiển FEL đã cải thiện một cách rõ ràng dựa

trên quá trình vận hành của bộ điều khiển phản hồi và các ứng dụng này cũng chỉ ra

có thể thu được chất lượng bám cao mà không cần mô hình mở rộng Cách

Hàm xấp xỉ

Trang 18

hoạt động của một bộ FEL được so sánh với cách hoạt động của hệ thống

điều khiển thích nghi Kết luận rằng, trong trường hợp mô hình đối tượng chính xác được sử dụng trong các hệ thống điều khiển thích nghi, quá trình bám

của bộ điều khiển thích nghi và của bộ điều khiển FEL là tương tự như nhau Khi FEL hội tụ chậm hơn bộ điều khiển thích nghi, trong tình huống này bộ điều

khiển thích nghi được ưa chuộng hơn Tuy nhiên khi chưa có một mô hình đối tượng chính xác, thì bộ điều khiển thích nghi sẽ không thể thu được hiệu suất

bám như mong muốn Bộ điều khiển FEL không phải trải qua điều này và nó vẫn đem lại hệ số bám chính xác Khả năng này nâng cao giả thiết rằng bộ FEL có phù

hợp cho hang loạt các ứng dụng mở rộng khi trong thực tế các đối tượng thường khó có một mô hình chính xác Câu hỏi đặt ra là nếu xét về mặt thương mại thì nên sử dụng bộ điều khiển nào? Để trả lời cho câu hỏi này chúng ra sẽ đi đánh giá

xem bộ điều khiển FEL có đáp ứng được đầy đủ các chỉ tiêu chất lượng mà ta đã

đưa ra trong mục Learning Control hay không

- Dễ dàng sử dụng trên hệ thống điều khiển có sẵn: Sự mở rộng duy nhất đối

với hệ thống điều khiển có sẵn là hàm xấp xỉ Khi hệ thống điều khiển được thực hiện bằng phần mềm điều này yêu cầu ít có sự thay đổi và có thể dễ dàng được thực hiện

- Sự hợp nhất các kiến thức quan trọng trong thiết kế: Khi cấu trúc của đối tượng động học được xác định, thì mạng MLP trong bộ điều khiển feed- forward có thể tách ra thành một vài mạng MLP nhỏ hơn Mỗi một mạng con

này sẽ bù cho một phần riêng biệt của đối tượng động học Những thí nghiệm đã chỉ ra rằng mạng này đã nâng tốc độ học lên đáng kể

- Sự ổn định được xác lập: Điều này đã được chứng minh bằng lý thuyết rằng bộ điều khiển FEL sử dụng cho điều khiển cánh tay robot cho kết quả là hội tụ

Với các hệ thống khác, sự ổn định chưa được xét đến trên phương diện lý thuyết

- Đáp ứng quá độ tốt: Trong quá trình học, sai lệch bám sẽ dần hội tụ đến

giá trị cực tiểu của nó Giống như sự ổn định, đáp ứng ngắn hạn cũng chưa được xét tới trên phương diện lý thuyết

- Hàm xấp xỉ phù hợp cho việc điều khiển: Rất nhiều các giá trị thực của bộ một LC phụ thuộc vào loại hàm xấp xỉ được sử dụng Mặc dù thực tế là bộ điều khiển FEL cũng đạt được chất lượng bám cao nhưng cách học không phải là tối ưu cho mạng MLP

Trang 19

- Yêu cầu bộ nhớ nhỏ: Một trong số những thuộc tính tốt của MLP là nó

có thể xấp xỉ các hàm mục tiêu đa chiều với một số ít các thông số Do đó tổng dung lượng bộ nhớ của máy tính yêu cầu cho việc thực hiện là rất nhỏ Tốn kém

cho việc tính toán giá trị Việc tính toán đầu ra của mạng MLP và trọng số

của bộ thích nghi bao gồm một số lượng lớn các tính toán phức tạp Do đó, với một

số ứng dụng điều khiển thời gian thực thì loại mạng mạng nơ ron này có thể không phù hợp

Cơ chế học hội tụ chậm và trải qua vùng giá trị cực tiểu cục bộ Cơ chế học

dễ dàng đạt được tại vùng giá trị cực tiểu cục bộ Hàm trọng lượng của mạng kết thúc ở vùng cực tiểu nào phụ thuộc vào hàm trọng lượng ban đầu của mạng Do đó

nó cần phải thực hiện nhiều thử nghiệm huấn luyện mạng với các cài đặt hàm trọng lượng ban đầu khác nhau, để thu được độ bám chính xác có thể chấp nhận được

Có khả năng tổng quát hoá tốt Một thuận lợi thực tế là mối quan hệ vào ra

chỉ có thể thích ứng toàn bộ đó là khi MLP có khả năng tổng quát tốt khi quá trình

huấn luyện được thực hiện một cách tổng thể Khi một hệ thống chuyển động phải

vận hành ở tốc độ thấp, bộ điều khiển FEL có khuynh hướng đưa ra hiệu suất kém Điều này là do thực tế mạng MLP gặp khó khăn trong việc học các dữ liệu có tương

quan với nhau ở mức cao Khi các dữ liệu có tương quan với nhau ở mức cao, mạng có khuynh hướng chuẩn hoá tín hiệu theo dữ liệu cuối cùng, kết quả là đưa ra khả năng khái quát hoá kém

Sự trơn tru của các giá trị xấp xỉ là không hoàn toàn điều khiển được Số

lượng các thông số của một bộ MLP quyết định tính chính xác cực đại của giá trị xấp xỉ Nó không đảm bảo được độ trơn tru nhất định Nhờ việc học, mạng MLP có

thể xấp xỉ rất gần các hàm mục tiêu trong phạm vi đầu vào và rất chính xác ở phần còn lại

Nhìn vào các thuộc tính ở trên, ta có thể kết luận rằng trong trường hợp mà

cách học tốt, bộ điều khiển FEL có khả năng đáp ứng rất tốt Các nghiên cứu khác nhau nhằm mục đích khắc phục các vấn đề tồn tại của bộ điều khiển FEL Theo đó

ta sẽ giới thiệu tóm lược 3 phương pháp: 2 phương pháp đầu thay đổi cấu trúc của

bộ điều khiển học Trong khi ở phương pháp còn lại sử dụng hàm xấp xỉ

Trước tiên, phương pháp thứ nhất có thể cải thiện cách học bằng cách chọn các đầu vào khác nhau cho hàm xấp xỉ Sai số tín hiệu được thêm vào như một đầu

vào của bộ xấp xỉ, điều này sẽ làm thay đổi bộ điều khiển LC từ chỗ hoàn toàn là 1

bộ điều khiển feed-forward nguyên bản chuyển sang bộ điều khiển feed-forward

Trang 20

dưới đây Các thí nghiệm đã chỉ ra rằng bộ LC này khắc phục được một số lỗi của

bộ điều khiển FEL gốc

Hình 1.8 Học theo sai số phản hồi

Phương thức thứ 2 là sử dụng nhiều bộ điều khiển feed-forward, mỗi một

bộ được huấn luyện để thực hiện một nhiệm vụ cụ thể Mỗi một mạng nơ ron giám

sát học xem là bộ feed-forward nào được sử dụng cho nhiệm vụ nào Bộ LC này đã

được kiểm tra trên tay máy mà phải thực hiện các chuyển động với các đối tượng có trọng lượng khác nhau Sau khi học, mỗi bộ điều khiển feed-forward đã học sẽ phải đảm nhiệm cho một đối tượng xác định Mạng giám sát đã học từ bộ điều khiển feed-forward nào được áp dụng cho đối tượng đó

Khi mạng MLP là nguyên nhân chính gây nên các khó khăn của điều khiển

FEL, một phương pháp rõ ràng ở đây là phải tìm ra những hàm xấp xỉ khác nhau

Mạng MLP được thay thế bởi mạng (Cerebellar Model Articulation Controller

CMAC) Mạng CMAC phụ thuộc vào các lớp mạng nơ ron mà làm việc với hàm cơ

sở Trong trường hợp mạng CMAC, hàm cơ sở bao gồm các hàm đa thức thông minh mà có giá trị khác không trên phần không gian đầu vào Ở mỗi điểm trong

không gian đầu vào p các hàm cơ sở chồng chéo lên nhau Thông số của p được biết

đến như là một thông số khái quát hoá và có thể được lựa chọn bởi nhà thiết kế Đầu

ra của CMAC là tổng các trọng số của hàm ước lượng cơ sở Việc học được tiến hành bằng cách mô phỏng theo các trọng số của mạng, chứ không phải là theo bản thân các hàm cơ sở Tất cả điều này nhằm mục đích cải thiện những vấn đề sau:

- Độ hội tụ nhanh hơn Khi việc học diễn ra một cách cục bộ, chỉ có 1 số

y

Trang 21

- Có thể học các dữ liệu tương quan: Các vùng của hàm cơ sở đã được trộn lẫn, điều này có ích cho quá trình học các dữ liệu tương quan

- Không có cực tiểu địa phương: Cơ cấu học không trải qua vùng cực tiểu cục bộ

Tuy nhiên một bất lợi là người thiết kế bộ điều khiển phải lựa chọn sự phân phối của các hàm cơ sở Điều này yêu cầu phải có một số kiến thức nền tảng về ánh

xạ vào/ra theo mong muốn và việc điều chỉnh sự phân phối của hàm cơ sở là cần thiết trước khi đạt được hiệu suất có thể chấp nhận được Các thí nghiệm đã chỉ ra

rằng việc thay thế mạng MLP bởi mạng CMAC đem lại một quá trình học tốt hơn

và độ bám chính xác hơn

1.2.4 Learning Feed forward Control (LFFC)

Trong luận văn này một hệ thống LC được xét có cấu trúc tương tự như cấu

trúc của bộ điều khiển FEL (hình 2.2) Tuy nhiên, phần feed-forward của bộ điều

khiển LC được thực hiện bởi các thông số am, bm, cm, dm của bộ điều khiển thích nhi theo mô hình mẫu

1.3 Điều khiển thích nghi theo mô hình mẫu (MRAS)

Điều khiển thích nghi là bài toán thiết kế bộ điều khiển nhằm luôn giữ chất lượng hệ thống được ổn định, cho dù nhiễu không mong muốn tác động vào hệ thống hoặc có những sự thay đổi không biết trước xảy ra bên trong đối tượng điều khiển làm thay đổi mô hình của nó, trong luận văn sử dụng điều khiển thích nghi thôi mô hình mẫu Model Reference Adaptive Systems (MRAS)

Cấu trúc bộ điều khiển như sau:

Hình 1.9 Bộ điều khiển thích nghi theo mô hình mẫu

Trang 22

Phương pháp ổn định của Liapunov

Việc thiết kế các hệ thống thích nghi dựa trên lý thuyết ổn định được bắt nguồn từ những bài toán về ổn định trong thiết kế ví dụ như những bài toán dựa trên các mô hình độ nhạy Phương pháp thứ 2 của Liapunov là phương pháp phổ biến nhất Một phương pháp khác có liên quan dựa trên lý thuyết “siêu ổn định” Cả hai phương pháp có thể mang đến kết quả giống nhau, đến nỗi mà không có một sự thích trực tiếp nào đối với một trong hai về các thuật toán kết quả

Việc sử dụng lý thuyết ổn định Liapunov cho thiết kế các hệ thống thích nghi được đưa ra bởi Park năm 1966 Nguồn gốc luật thích nghi được thực hiện dễ dàng nhất khi đối tượng và mô hình mẫu được mô tả dưới dạng mô hình không gian trang thái Đối tượng có thể được mô tả:

số bộ điều khiển Ka, Kb Mô tả mô hình mẫu có thể được mô tả

Trang 23

thực hiện được khi chúng ta có thể tìm được một hàm (vô hướng) Liapunov V(e)

với tính chất sau:

V(e) xác định dương (nghĩa là V > 0 với e 0, và V= 0 khi e=0)

V(e) xác định âm (nghĩa là V<0 với e 0, và V = 0 khi e = 0)

( )

Khi hàm Liapunov V(e) đã được chọn chính xác, các luật thích nghi được trực

tiếp dẫn ra từ các điều kiện dưới mà V e ( ) xác định âm Vấn đề chính (về lý thuyết)

là lựa chọn một V(e) thích hợp Có thể tìm được nhiều hàm Liapunov phù hợp

Những hàm Liapunov khác nhau dẫn đến những luật thích nghi khác nhau Việc tìm hàm Liapunov là một công việc khó khăn Tuy nhiên, trong các tài liệu một vài hàm lipunov “tiêu chuẩn” đã đưa ra mà những luật thích nghi hữu ích” Những hàm thích nghi đơn giản và khả dụng được tìm thấy khi chúng ta sử dụng hàm Liapunov:

Ở đó:

- P là ma trận đối xứng dương tùy ý

- a, b là những vector gồm những phần tử khác 0 của ma trận A,B

Việc lựa chọn hàm Liapunov đưa ra trong biểu thức (1.8) không quá phức tạp Hàm Liapunov biểu diễn một loại năng lượng tồn tại trong hệ thống và khi loại năng lượng này khi tiến dần về 0, hệ thống đạt tới điểm cân bằng ổn định Trong nhiều hệ thống động năng lượng này có mặt trong những khâu tích phân, năng lượng này cũng có thể được coi như là những biến trạng thái của hệ thống Các thành phần e, a, b là những biến trạng thái của hệ thống được mô tả trong biểu thức

(1.9) Các thành phần a, b là những sai lệch tham số và có thể coi như là những điều

kiện ban đầu sai của các tham số bộ điều khiển thích nghi Vì vậy yêu cầu đặt ra là

tất cả các biến trạng thái e, a, b đều tiến về 0

Trang 24

Dẫn tới: A Pm T PAm Q (1.12)

lý Malkin thì Q là một ma trận xác định dương, dẫn đến phần tử đầu của biểu thức

tử của vector sai lệch e (với hệ số trọng số p nk) được sử dụng trong luật thích nghi,

thay vì chỉ tín hiệu sai lệch e Các hệ số p nk là những phần tử hàng thứ n và cột thứ k của ma trận P, những phần tử này có thể được xác định với sự trợ giúp từ biểu thức (1.12) Chọn một ma trận Q xác định dương tùy ý, sau đó ma trận P được giải từ

Trang 25

Từ đó, ta có các bước cần thiết để thiết kế một bộ điều khiển thích nghi sử dụng phương pháp Liapunov

1 Xác định phương trình vi phân cho e

1.4 Bộ điều khiển LFFC trên cơ sở MRAS

Bắt nguồn từ cấu trúc bộ điều khiển LFFC, luận văn này đề cập đến sự thích nghi của các tham số của mô hình mẫu dựa trên bộ điều khiển LFFC, mà thực hiện một mô hình ngược của đối tượng Đáp ứng thực của đối tượng được xác định bởi khâu khởi tạo tín hiệu đặt Đối với hệ thống tuyến tính, có thể chứng minh rằng hệ thống được điều khiển ổn định tiệm cận theo thuyết của Liapunov So sánh với những cấu trúc mô hình mẫu tiêu chuẩn hơn thì hệ thống này có hiệu suất tốt hơn

Nó phản ứng nhanh, bền vững và không nhạy cảm với nhiễu đo lường

1.4.1 Khái niệm chung

Các bộ điều khiển thích nghi mô hình mẫu thường được sử dụng trong một

mô hình mắc song song với đối tượng Mô hình song song này xác định phản ứng mong muốn của đối tượng (hình 1.10a) hoặc nó được sử dụng như một mô hình có thể điều chỉnh được để ước lượng các tham số của đối tượng (hình 1.10b) MRAS

đã được ứng dụng, ví dụ như trong hệ thống bánh lái tự động của tàu thủy

Khâu khởi tạo điểm đặt, trong hệ thống cơ điện tử được gọi là dữ liệu động,

đồng thời cũng có thể hoạt động và được sử dụng như một mô hình mẫu Điều này

dẫn tới cấu trúc cơ bản ở hình 1.10c Trong những năm gần đây, sự quan tâm đến

bộ điều khiển LFFC ngày càng tăng Những cấu trúc này sử dụng một kiến thức tiền nghiệm của đối tượng để tạo ra tín hiệu chủ đạo thích hợp mà không cần phải đợi một tín hiệu sai lệch Những cấu trúc như thế này có thể cải thiện đáng kể hiệu suất của hệ thống điều khiển đối với sự thay đổi của mẫu và nhiễu đo lường Trong thành phần chính tạo nên bộ điều khiển LFFC nên bao gồm 1 mô hình ngược của đối tượng Để nhận dạng được một mô hình ngược như thế này nó phải được kết hợp với một cấu trúc lọc thông thấp ít nhất là có cùng bậc với đối tượng Gần đây, những cấu trúc feed - forward cho các đối tượng với nhiễu lặp đã được phát triển trong các dạng của Điều khiển học lặp (ILC) (Moore, 1998), và bộ điều khiển LFFC Nhiễu lặp lại là nhiễu tác động hầu như giống nhau về dạng trong các khoảng thời gian cố định Trong ILC, mỗi tín hiệu chủ đạo mà được yêu cầu để bù

Trang 26

lại cho 1 nhiễu như vậy được lưu trữ trong một bộ nhớ và được cấp trong chu kỳ sau Một cơ chế loại bỏ và 1 cơ chế cập nhật sẽ giữ cho bộ nhớ luôn được cập nhật Thông tin về hệ thống mà cần đến để tạo ra tín hiệu feed - forward được lưu trữ trong một loại đường truyền trễ

Trong bộ điều khiển LFFC, việc thiết lập thông tin về hệ thống được lưu trữ trong một khâu xấp xỉ hàm mà có thể thực hiện bằng mạng nơ ron hoặc bằng B-splines Phương pháp biểu diễn thông tin này có thể cho phép các ảnh hưởng phi tuyến được học và lưu trữ một cách dễ dàng Với các nhiễu lặp, đầu vào của mạng

nơ ron được lựa chọn theo thời gian (sau khi bắt đầu 1 chu kỳ mới) Phương pháp điều khiển LFFC có thể được mở rộng với các nhiễu không lặp và nhiễu độc lập – trạng thái Thay cho thời gian, tín hiệu mẫu và đạo hàm của nó được sử dụng như những đầu vào của mạng Ngoài ra, các thành phần phi tuyến có thể dễ dàng được

bù, tuy nhiên, ở một số giá trị của bộ nhớ và đối với việc tăng số bậc của hệ thống

và nhiều hơn các thành phần phi tuyến độc lập - trạng thái, sẽ cần thời gian đào tạo dài

Để giải quyết vấn đề này, những khâu xấp xỉ hàm khác ví dụ như support vector machines đã được áp dụng

Hình 1.10 (a) : MRAS cho sự thích nghi của các tham số bộ điều khiển

Hình 1.10 (b): MRAS với mô hình có thể hiệu chỉnh cho nhận dạng tham số

Trang 27

Hình 1.10c: Cấu trúc MRAS với khâu khởi tạo tín hiệu đặt

1.4.2 MRAS dựa trên điều khiển feed - forward

Đối với những hệ thống có thể xấp xỉ bằng 1 hàm truyền tuyến tính, sự biểu diễn dưới dạng hàm truyền hầu như không yêu cầu bộ nhớ và vì vậy rất hiệu quả Khi chúng ta nhận dạng khâu tạo tín hiệu đặt bằng phương pháp sử dụng bộ lọc biến trạng thái, trạng thái của những bộ lọc như thế này – mà là đạo hàm của đầu ra

- có thể được sử dụng để tạo ra 1 mô hình ngược Điều này được minh họa bằng ví

2 2

2

1

n n

n ref

p p

s s

H

c s b s a H

(1.21)

Hàm truyền đạt từ mẫu R tới đầu ra đối tượng C là :

p p

p

m m

m n n

n ref

c s b s

a

c s b s

a s

s

2

2 2

2

Khi các thông số a m , b m , và c m bằng với các giá trị tương ứng là a p ,b p , c p thì

H tot sẽ bằng với đáp ứng mong muốn, được cho bởi H ref

Hình 1.11: Nhận dạng mô hình ngược của đối tượng

Trang 28

Ta nên cố gắng tìm một cơ chế học mà dựa trên sai lệch giữa đầu ra r của

thêm 1 vòng phản hồi Tuy nhiên, khi chúng ta mô hình hóa nhiễu như là một nhiễu

„hằng số‟, các nhiễu này cũng có thể được bù theo cơ chế feed - forward bằng cách

cấu trúc bộ điều khiển như hình 2.12, ở đó cấu trúc khởi tạo – đạo hàm của bộ lọc biến trạng thái được nhìn thấy 1 cách rõ ràng

Hình 1.12: Bộ điều khiển LFFC

1.4.3 Luật điều khiển thích nghi

Trong hệ thống thích nghi theo mô hình mẫu, mô hình mẫu đóng vai trò như một khâu khởi tạo điểm đặt (hình 2.10c) Việc này gợi cho chúng ta thấy rằng có thể

c m Ta tiếp tục ví dụ về đối tượng bậc 2, nhưng nó có thể áp dụng hoàn toàn tương

tự đối với các đối tượng có bậc cao hơn Ta giả thiết rằng các tham số của đối tượng

là không biết trước và biến thiên chậm Ở tầng này ta cũng giả thiết hàm truyền của

hiệu sai lệch e cho cơ chế tự học Sự khép kín mạch vòng phản hồi bằng phương

được bù bởi các giá trị khác nhau của các tham số hiệu chỉnh Ta giả thiết nhiễu

Định dạng
Số trang	57
Dung lượng	2,14 MB