Học cũng cố điều khiển cánh tay robot tránh vật cản

Tóm tắt Học củng cố là phương pháp học và điều khiển mạnh mẽ trong các hệ thống động lực tương tác trực tiếp với môi trường không xác định với mục tiêu tìm ra các chiến lược tối ưu để ra

Trang 1

Đại Học Quốc Gia Tp Hồ Chí Minh

TRƯỜNG ĐẠI HỌC BÁCH KHOA

- - -

NGUYỄN TẤN LŨY

HỌC CỦNG CỐ ĐIỀU KHIỂN CÁNH TAY ROBOT TRÁNH VẬT CẢN

Chuyên ngành : Điều Khiển Học Kỹ Thuật Mã số ngành : 2.05.01

LUẬN VĂN THẠC SĨ

TP HỒ CHÍ MINH , tháng 11 năm 2005

Trang 2

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH

Cán bộ hướng dẫn khoa học:

Cán bộ chấm nhận xét 1:

Cán bộ chấm nhận xét 2:

Luận văn thạc sĩ được bảo vệ tại HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày tháng 12 năm 2005

Trang 3

TRƯỜNG ĐH BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

PHÒNG ĐÀO TẠO SĐH ĐỘC LẬP – TỰ DO – HẠNH PHÚC

- -

TpHCM, Ngày Tháng Năm 2005

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ và tên học viên: NGUYỄN TẤN LŨY

Ngày, tháng, năm sinh:16/09/1966 Nơi sinh: Đà Lạt

Chuyên ngành: Điều khiển học kỹ thuật

I TÊN ĐỀ TÀI:

HỌC CỦNG CỐ ĐIỀU KHIỂN CÁNH TAY ROBOT TRÁNH VẬT CẢN

II NHIỆM VỤ VÀ NỘI DUNG:

Tìm hiểu các phương pháp học để điều khiển

Tìm hiểu các phương pháp và các giải thuật học củng cố

Tìm hiểu các xấp xỉ hàm So sánh và chọn một xấp xỉ hàm kết hợp với một phương pháp học củng cố để học và điều khiển cánh tay robot tránh vật cản

Xây dựng mô hình động lực học cánh tay robot hai khớp nối

Xây dựng thư viện học củng cố bằng ngôn ngữ lập trình C cho các khối S-Function của Simulink Matlab

Mô phỏng quá trình học củng cố bằng thư viện đã xây dựng

Phân tích và đánh giá kết quả mô phỏng

III NGÀY GIAO NHIỆM VỤ:

IV NGÀY HOÀN THÀNH NHIỆM VỤ:

V CÁN BỘ HƯỚNG DẪN: TS Nguyễn Thiện Thành

CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM NGÀNH BỘ MÔN QL CHUYÊN NGÀNH

TS Nguyễn Thiện Thành TS Trần Đức Thành TS Trần Đức Thành

Nội dung và yêu cầu LATN đã được hội đồng chuyên ngành thông qua

Ngày tháng năm

Trang 4

Abstract

Reinforcement Learning is a powerful learning and control method for dynamical systems which directly interact with unknown or unpredictable environment with the objective of finding optimal strategies to decide optimal actions for control Reinforcement Learning methods are being developed from formal theories of “trial and error”, however furthermore, during the course of learning, actions are optimized by received knowledge or explored

Building automatic controllers for robots, which always have uncertainties

in dynamic model, in stochastic environments using reinforcement learning is a realistic model with a great challengingly but efficiently, where an accurate model of the dynamics of the robot or the environment is not required, also optimal trajectories, that pre-computing them is often too costly to be performed online, is not planted The optimal policy will be found in any situation, not only

in the neighborhood of a pre-compute optimal trajectory if it exits In some other situations, new optimal actions might be necessary to find quickly The advantage of using reinforcement learning for control robot is that the desired behavior need not to be completely specified by human designer Only the reward function, which is defined in terms of desired outcomes In other words,

the robot is simply told what it has to do, and not how, in the task specification

A reinforcement learning operating in real-time with large state and action spaces are approximation problems that must be solved with great care In the thesis, a Cerebellar Model Articulation Controller (CMAC) networks is used

as fast function approximators to combine with reinforcement learning techniques to set up reinforcement learning systems for solving the manipulator control problem above in real-time with large state and action space

In the thesis, to evaluate the effectiveness of reinforcement learning techniques, a learning controller is build for manipulator control The task facing the learning controller is to generate a sequence of torque change commands to drive the links of the manipulator from arbitrary starting arm configuration in order to position the end-effector at the destination with proper velocity, without obstacle collisions along the way

Trang 5

Tóm tắt

Học củng cố là phương pháp học và điều khiển mạnh mẽ trong các hệ thống động lực tương tác trực tiếp với môi trường không xác định với mục tiêu tìm ra các chiến lược tối ưu để ra quyết định chọn hành động tối ưu cho điều khiển Có thể nói học củng cố được phát triển từ lý thuyết hình thức của học thử sai, tuy nhiên cao hơn nữa, trong quá trình học các hành động được tối ưu bằng những

“tri thức” đã học hoặc được thăm dò để tìm tối ưu

Xây dựng bộ điều khiển robot có mô hình động lực không biết chính xác trong môi trường động lực không xác định, sử dụng học củng cố là phương pháp thực tế rất thách thức nhưng hiệu quả, trong đó không cần xác định chính xác mô hình động lực robot và môi trường, cũng như không cần qui hoạch trước các quĩ đạo tham chiếu tối ưu hoặc không qui hoạch được ở các điều kiện như vậy Chiến lược tối ưu sẽ được tìm trong mọi tình huống chứ không chỉ lân cận quĩ đạo tối ưu đã hoạch định nếu có quĩ đạo này Trong vài trường hợp khác các hành động tối ưu mới cần phải được nhanh chóng tìm thấy Thuận lợi của học củng cố là hành vi của robot không cần đặc tả đầy đủ bởi con người, chỉ có tín hiệu củng cố được định nghĩa theo kết quả mong muốn Nói cách khác, robot được bảo phải làm gì chứ không phải làm như thế nào

Học và điều khiển trong hệ thống thời gian thực với không gian trạng thái và hành động lớn là bài toán xấp xỉ cần phải giải quyết thận trọng Mạng CMAC (Cerebellar Model Articulation Controller) được sử dụng như là các bộ xấp xỉ hàm tốc độ nhanh để kết hợp với kỹ thuật học củng cố tạo thành hệ thống học củng cố giải quyết bài toán điều khiển cánh tay robot nêu trên ở thời gian thực với không gian trạng thái và hành động lớn

Trong luận văn để đánh giá hiệu quả của kỹ thuật học củng cố, bộ điều khiển học được xây dựng để điều khiển cánh tay robot Nhiệm vụ của nó là học để phát ra mô men dẫn các khâu của cánh tay từ động học ban đầu nào đó về động học đích, ở đó đầu cuối của cánh tay đạt đến đích với vận tốc hợp lý, mà không khâu nào của cánh tay đụng vào vật cản dọc đường đi

Trang 6

Lời cảm ơn

Tôi xin cảm ơn Ts Nguyễn Thiện Thành, người thầy đã tận tình giúp đở tôi trong suốt quá trình học tập và thực hiện luận văn này Thầy cô trong bộ môn điều khiển tự động khoa điện-điện tử Trường Đại Học Bách Khoa Tp Hồ Chí Minh đã hết sức tận tâm, tận lực dìu dắt chúng tôi trong quá trình học tập và nghiên cứu tại Trường

Tôi xin cảm ơn các đồng nghiệp trong khoa cơ khí Trường Cao Đẳng Giao Thông Vận Tải III đã khích lệ động viên tôi trong quá trình thực hiện luận văn Ngoài ra tôi còn chia sẽ đến các bạn học chung lớp K14 đã cùng tôi gắn bó trong hai năm học tập

Luận văn này thay lời tặng vợ tôi Thanh Hồng và hai con Hồng Hạnh và Phương Quân

Trang 7

i

Mục lục

1.1 Sự tương tác giữa tác nhân và môi trường 2

1.2 Hệ thống học 4

1.2.1 Học giám sát 4 1.2.2 Học củng cố 4 1.3 Điều khiển robot bằng học củng cố 5

Chương 2 Học củng cố 6 2.1 Khái niệm cơ bản 6

2.2 Quá trình ra quyết định Markov 7

2.3 Qui hoạch động 8

2.3.1 Chiến lược và hàm đánh giá .8

2.3.2 Chiến lược nổi trội 9

2.3.3 Tối ưu 10

2.3.4 Phương trình tối ưu Bellman 10

2.3.5 Lặp chiến lược 12

2.3.6 Lặp giá trị 13 2.4 Phương pháp sai phân tạm thời .14

2.4.1 Các giá trị dự báo và giải thuật TD(λ) 14

2.4.2 Dự báo tổng giá trị thưởng với TD(λ) .15

2.5 Q-learning .17

2.5.1 Giải thuật Q-learning 17

2.5.2 Giải thuật Sarsa 18 2.5.3 Sarsa và TD(λ) kết hợp .19

2.6 Hệ thống học chỉ trích-hành động 19

2.7 Thăm dò và lựa chọn hành động .21

2.7.1 Phương pháp thăm dò ε-greedy 21

2.7.2 Phương pháp thăm dò dùng phân bố xác xuất Boltzmann 21

Trang 8

Chương 3 Xấp xỉ hàm trong học củng cố 31

3.1 Sự cần thiết phải xấp xỉ hàm .31

3.2 Mạng MLP (Multi-Layer-Perception) .32

3.3 Mạng RBF (Radial Basis Function) 34

3.3.1 Mạng RAN (Resource Allocating Network) .34

3.3.2 Ưu điểm của mạng RBF .36

3.3.3 Nhược điểm của mạng RBF 36 3.4 Mạng CMAC (Cerebellar Model Articulation Controller) 36

3.4.1 Tổng quan 36

3.4.2 Hoạt động của mạng CMAC 36

3.4.3 Ánh xạ trong mạng CMAC .38

3.4.4 Kỹ thuật băm (Hasing) .41

3.4.5 Ưu điểm của mạng CMAC 41

3.4.6 Nhược điểm của mạng CMAC .42

Chương 4 Điều khiển cánh tay Robot sử dụng học củng cố 43 4.1 Học củng cố để cải thiện chất lượng của hệ thống 43

4.1.1 Đặc tả yêu cầu 43

4.1.2 Điều khiển PI 44

4.1.3 Học củng cố để cải thiện chất lượng .45

4.1.4 Kết luận .48

4.2 Mô hình động lực học của cánh tay robot hai khớp nối 50

4.3 Mô phỏng động học cánh tay robot .51

4.4 Điều khiển robot bám theo quĩ đạo tham chiếu 52

4.5 Học củng cố để điều khiển cánh tay robot tránh vật cản .53

4.5.1 Hàm thưởng – Hàm củng cố 54 4.5.2 Hệ thống học chỉ trích - hành động sử dụng mạng CMAC

55 4.5.3 Hệ thống Q-learning sử dụng mạng CMAC 56

4.6 Thực hiện .59

4.6.1 Mô tả .61

4.6.2 Kết quả 60 4.7 Phân tích 69

Chương 5 Kết luận và hướng phát triển đề tài 71 5.1 Kết luận 71

5.2 Hướng phát triển đề tài 71

Trang 9

Phụ lục A Mô hình động lực học cánh tay robot 72

A.1 Thông số robot .72 A.2 Phương trình Lagrange 72 A.3 Phương trình động lực học 74

B.1 Cài đặt thư viện học củng cố .77 B.2 Ý nghĩa, mô tả, các tham số của các khối S-Function 78

C.1 Các thông số mạng CMAC 90 C.2 Các thông số học củng cố 90

Trang 10

iv

Danh sách hình vẽ

1.1 Tương tác giữa tác nhân và môi trường 2

1.2 Tương tác giữa tác nhân và môi trường trong hệ thống cánh tay robot học củng cố để chuyển động trong môi trường phức tạp 3

2.1 Mô tả phương trình Bellman cho các hành động a1, a2, và a3 ở trạng thái x và hàm chuyển trạng thái T ( x , a ) 10

2.2 Tương tác giữa hệ thống học Q-learning và môi trường 17

2.3 Hệ thống học chỉ trích – tác động 20

2.4 Mobile robot học củng cố để chuyển động về đích và tránh vật cản 26

2.5 Robot di chuyển tránh vật cản với 8 cảm biến phát hiện vật cản 29

2.6 Mô hình cánh tay sinh học với sáu cơ bắp u1, u2,K, u6 và hai khớp nối 29

3.1 Bảng dò tìm để lưu trữ hàm đánh giá 31

3.2 Cấu trúc mạng MLP học điều khiển cánh tay robot 3 bậc tự do 33

3.3 Cấu trúc mạng RAN với hàm Gauss là hàm cơ sở “xuyên tâm” 35

3.4 Ví dụ mạng CMAC 38

3.5 Ánh xạ trong mạng CMAC 40

4.1 Hệ thống điều khiển PI 44

4.2 Sơ đồ mô phỏng học củng cố để điều khiển giảm sai số hệ thống

45 4.3.1 Ngõ ra y bám theo r với điều khiển PI 49

4.3.2 Ngõ ra y bám theo r sau khi huấn luyện bằng học củng cố 49

4.4 Cánh tay robot với vật cản trong không gian làm việc 50

4.5 Sơ đồ động lực học cánh tay robot 52

4.6 Sơ đồ tương tác giữa tác nhân và mô phỏng robot hoạt động trong môi trường có vật cản 53

Trang 11

4.7 Sơ đồ mô phỏng học củng cố để điền khiển cánh tay robot tránh

vật cản 59

4.8 Sơ đồ mô phỏng khối hàm đánh giá, chiến lược 60

4.9 Chuyển động cánh tay ở phép thử 5000 Trạng thái bắt đầu [π 395 −π 2] = θ , , θ& =[ ]0,0 Dấu * tương ứng là trạng thái ở bước 25 61

4.10 Vận tốc của chuyển động ở mỗi khâu ở phép thử 5000 62

4.11 Mô men điều khiển tại các khớp ở phép thử 5000 62

4.12 Giá trị của các hành động (a): bước thứ 49, (b): bước thứ 50 và (c): bước thứ 51-đạt đến đích 63

4.13 Sơ đồ mô phỏng điều khiển robot tránh vật cản 64

4.14 Giá trị thưởng tích lũy theo chu kỳ 65

4.15 Quĩ đạo từ θ=[π 2.2,−π 2.1], θ& =[ ]0,0 về đích 65

4.16 Quĩ đạo từ θ=[π 3.95,−π 2], θ& =[ ]0,0 về đích 65

4.17 Vận tốc chuyển động mỗi khớp ở phép thử 10000 cho quĩ đạo chuyển động như hình 4.16 66

4.18 Mô men điều khiển tại các khớp ở phép thử 10000 cho quĩ đạo chuyển động như hình 4.16 66

A.1 Mô hình robot 70

B.1 Khối S-Funtion Cmac Index 77

B.2 Khối S-Funtion Action Values 78

B.3 Khối S-Funtion Boltzmann 79

B.4 Khối S-Funtion Epsilon-Greedy 80

B.5 Khối S-Funtion Kinematic-Reward 81

B.6 Khối S-Funtion Action Value 83

B.7 Khối S-Funtion Trace Setting 84

B.8 Khối S-Funtion Weigth Update 85

B.9 Khối S-Funtion Animation 86

B.10 Khối S-Funtion Policy 87

Trang 12

vi

Danh sách các bảng

4.1 Các thông số kiểm tra hàm đánh giá hành động ở phép thử

5000 64 A.1 Thông số Robot .71 B.1 Danh sách các file sử dụng trong các khối S-Function 76

Trang 13

Đầu tiên qui hoạch quĩ đạo tối ưu sau đó xây dựng bộ điều khiển để bám theo quĩ đạo này theo phương pháp của các bộ điều khiển tối ưu số kinh điển, là điều khó có thể thực hiện thời gian thực trong môi trường không chắc chắn, ở đó hành động tối ưu mới phải được xác định nhanh chóng trong mọi tình huống chứ không chỉ lân cận quĩ đạo tối ưu đã qui hoạch

Các phương pháp học củng cố có thể học mà không cần có mô hình động lực học chính xác Không giống như học giám sát, các phương pháp học củng cố không cần có “thầy giáo” bảo chúng phải làm như thế nào để giải quyết bài toán, ví dụ học theo quĩ đạo tối ưu đã qui hoạch như đã đề cập ở trên Điều đó có nghĩa các phương pháp học củng cố có thể học để giải quyết các bài toán phức tạp trong môi trường phức tạp (có thể ngoài sự nhận thức của con người!) Đối tượng học có thể tự xây dựng mô hình từ kinh nghiệm của nó và có thể sử dụng mô hình này để dự báo kết quả của hành động mà không cần tương tác thật sự với môi trường Điều này rất hữu ích khi phải trả giá cao cho sự tương tác với môi trường trong thế giới thực

Học củng cố là mô hình học thực tế đã được ứng dụng thực tế Các robot mô phỏng và thực học để chơi đá bóng; biped robot thực nặng 50kg học để đi (theo tôi học củng cố ở robot này sẽ nhanh chóng cung cấp hành các động tối ưu mới, ví dụ khi vấp vật cản bất ngờ robot phải phản xạ để giữ cân bằng); NASA sử dụng học củng cố cho lĩnh vực không gian vũ trụ, ví dụ như học để điều các quá trình trong tàu con thoi hoặc robot thăm dò vũ trụ [9]; Học củng cố để điều

Trang 14

khiển mô tơ [21]; Cánh tay robot mô phỏng học củng cố để di chuyển trong môi trường có nhiều vật cản [7]

1.1 Sự tương tác giữa tác nhân và môi trường

Một tác nhân (Agent) là một thực thể quan sát các trạng thái từ môi trường và tác động ngược lại môi trường Trong học củng cố, tác nhân tương tác trực tiếp với môi trường, học từ môi trường bằng phương pháp thử sai: tại mỗi bước tác nhân quan sát trạng thái từ môi trường, chọn hành động để tác động lại môi trường làm cho môi trường bộc lộ những thuộc tính của nó để tác nhân học cách điều khiển Nhưng học củng cố cao hơn phương pháp học thử sai, đó là tác nhân học và rút “kinh nghiệm, kiến thức” bằng cách đánh giá lại hành động vừa thực hiện hoặc đã thực hiện trong quá khứ để tìm chiến lược ra quyết định thực hiện các hành động mới tốt hơn Khi tương tác với môi trường tác nhân nhận được một tín hiệu củng cố (reinforcement signal) còn gọi là giá trị thưởng (reward) từ môi trường tùy theo hành động tác nhân đã thực hiện Sự tương tác giữa tác nhân và môi trường được biểu diễn như hình 1.1

Hình 1.1: Tương tác giữa tác nhân và môi trường

Môi trường có thể là định thuộc (deterministic), trong đó khi một hành động tác động đến môi trường ở cùng một trạng thái nào đó sẽ làm cho môi trường chuyển đến các trạng thái kế tiếp theo các xác suất chuyển trạng thái đã biết, ví dụ có thể chuyển sang trạng thái cố định khác hoặc giữ nguyên trạng thái cũ Hoặc môi trường có thể là phỏng đoán (stochastic), trong đó cùng một hành

Môi trường phỏng đoán

Hàm đánh giá hành động

Chiến lược chọn hành động

Trạng thái Tín hiệu củng cố

Hành động Nhiễu

Tác nhân

Trang 15

động được thực hiện ở cùng một trạng thái nào đó có thể cho nhiều kết quả rất khác nhau, ví dụ chuyển đến các trạng thái khác nhau không đoán trước

Mục đích của tác nhân học là ánh xạ từ trạng thái sang hành động sao cho thu được giá trị thưởng dài hạn lớn nhất [24]

Quá trình học chia làm hai phần: thăm dò hành động mới để tìm kiếm giá trị thưởng dài hạn cao nhưng gặp nhiều “rủi ro” hoặc khai thác những “kinh nghiệm” đã có Đây là một thuộc tính đặc biệt của học củng cố Ở các hệ thống học khác, một tập hành động và tập luật đặc tả các hành động nào sẽ được thực hiện tương ứng với một tình huống cụ thể nào được cho trước Trong trường hợp này hành vi của đối tượng được định nghĩa bởi người thiết kế

Hình 1.2 Tương tác giữa tác nhân và môi trường trong hệ thống cánh tay robot

học củng cố để chuyển động trong môi trường phỏng đoán

Ví dụ: Hình 1.2 biểu diễn sự tương tác giữa tác nhân và môi trường của hệ thống robot học củng cố để chuyển động trong môi trường phỏng đoán Môi trường ở đây bao gồm động lực học môi trường nơi robot chuyển động và động lực học cánh tay robot Động lực học môi trường có thể không xác định hoặc nhận dạng chính xác và động lực học cánh tay robot cũng có thể không biết chính xác Tác nhân ở hệ thống này là bộ học và điều khiển: tại mỗi thời điểm, trực tiếp quan sát các trạng thái robot θ1, , θ&1 θ2, ; Nhận tín hiệu củng cố θ&2 r từ môi trường, ví dụ đơn giản: r = -1 (phạt) nếu robot chuyển động ở những vùng

MÔI TRƯỜNG

Hàm đánh giá

Chiến lược

mô men 2

1 , ττ

Cập nhật chiến lược

TÁC NHÂN

Trang 16

không mong muốn và r = 1 (thưởng) nếu robot đạt đến đích Ngay sau đó tác nhân học và điều khiển bằng cách cung cấp các mô men τ1 , τ2 cho robot

1.2 Hệ thống học

1.2.1 Học giám sát

Trong học giám sát, mục đích của tác nhân là học cách ánh xạ từ các mẫu tín hiệu đầu vào đến các giá trị đầu ra theo giá trị ra mong muốn được cung cấp bởi

“thầy giáo” Khi cung cấp một mẫu vào cho đối tượng học, giá trị ngõ ra được tính Sai số giữa giá trị ngõ ra thật sự và ngõ ra mong muốn được sử dụng điều chỉnh các tham số bên trong của đối tượng học

Yêu cầu đối tượng học giám sát phải có khả năng tổng quát hóa từ cặp vào ra trước đó để dự báo giá trị ra với các mẫu vào tương tự sau này Bởi vì dữ liệu tập mẫu có thể bị sai số do nhiễu, do đó cần phải xây dựng mô hình phù hợp với dữ liệu tối ưu trong một vài tình huống, ví dụ sai số bình phương tối thiểu giữa giá trị ra mong muốn và giá trị ra thực sự Giải thuật học lan truyền ngược là ví dụ về giải thuật học giám sát

1.2.2 Học củng cố

Tác nhân và môi trường tạo thành hệ thống học củng cố Các bài toán học củng cố liên quan đến điều khiển, ở đó các hành động tác động đến môi trường được cung cấp bởi tác nhân Một tín hiệu ở dạng củng cố hay còn gọi là giá trị thưởng được cung bởi môi trường để đánh giá hành động của tác nhân Tín hiệu này chỉ đơn giản chỉ ra kết quả đạt được có khả quan hay ngược lại, và nó không cho biết hành động chính xác nào cần phải thực hiện và thực hiện như thế nào Mục tiêu của tác nhân là thực hiện các hành động sao cho giá trị thưởng dài hạn mà nó nhận được từ môi trường trong suốt quá trình học là lớn nhất

Ưu điểm chính của học củng cố là, không giống như học giám sát, không yêu cầu có ngõ ra mong muốn, đồng nghĩa với không yêu cầu có “thầy giáo”, ví dụ như các hành động đặc thù nào đó cần phải thực hiện cho mỗi mẫu vào Do đó học củng cố rất hữu hiệu để học thời gian thực (tương tác trực tiếp với môi trường) trong môi trường phỏng đoán, không xác định chắc chắn Một điều khó khăn là không thể sử dụng tín hiệu củng cố trực tiếp như chỉ tiêu sai số để điều chỉnh các tham số học Vì vậy quá trình học liên quan đến các hành động được thực hiện ở hình thức thử sai và tác nhân sử dụng các “kinh nghiệm” trước đó để tự điều chỉnh các thông số bên trong

Trang 17

Hầu hết các thủ tục học củng cố bao gồm:

- Hàm đánh giá để dự báo tổng các tín hiệu củng cố dài hạn

- Chiến lược để chọn các hành động

1.3 Điều khiển robot bằng học củng cố

Để điều khiển Robot thông thường các đặc trưng của các phần khác nhau của Robot và môi trường hoạt động (không gian làm việc) của Robot phải biết trước Điều này liên quan đến việc xây dựng mô hình động lực đầy đủ sử dụng kỹ thuật nhận dạng hệ thống hoặc yêu cầu các phương trình chuyển động từ mô hình động lực của hệ thống Khi sử dụng phương pháp học củng cố không cần đòi hỏi phải có một mô hình động lực học robot chính xác và động lực học môi trường cụ thể Chiến lược tối ưu được tìm thấy thông qua quá trình học từ sự tương tác trực tiếp với môi trường Hoặc tác nhân có thể tự xây dựng mô hình từ kinh nghiệm của nó và có thể sử dụng mô hình này để dự báo kết quả của hành động mà không cần tương tác thật sự với môi trường Điều này rất hữu ích khi phải trả giá cao cho sự tương tác với môi trường trong thế giới thực

Ưu điểm của học củng cố để điều khiển cánh tay robot là hành vi mong muốn không cần đặc tả bởi người thiết kế, chỉ có hàm củng cố, được định nghĩa dựa vào mục tiêu mong muốn

Học củng cố với cánh tay Robot là học thời gian thực với không gian trạng thái và hành động rất lớn và liên tục, vì vậy sử dụng xấp xỉ hàm là vấn đề cần cân nhắc Trong chương 4 một xấp xỉ hàm là mạng MLP kết hợp bảng dò tìm để học củng cố cải thiện chất lượng của đối tượng bậc 2 Sau đó trên cơ sở so sánh, một xấp xỉ hàm là mạng CMAC được phát triển để học củng cố điều khiển cánh tay robot tránh vật cản

Trang 18

Chương 2

Học củng cố

2.1 Khái niệm cơ bản

Phương pháp học củng cố được đặc trưng bởi tín hiệu củng cố, đánh giá việc thực hiện của tác nhân để đạt mục tiêu mong muốn Thông thường, một tín hiệu củng cố có giá trị là số thực dương (giá trị thưởng) cho hành động đem lại kết quả mong muốn và một là số thực âm (giá trị phạt) cho hành động đem lại kết quả không mong muốn Tác nhân học củng cố tương tác với môi trường bằng cách quan sát trạng thái x và lựa chọn hành động a Sau mỗi lần tương tác (quan sát x và chọn a), đối tượng nhận được tín hiệu hồi tiếp, đó là tín hiệu củng cố r

từ môi trường Mục đích của học củng cố là tìm ra thuật toán điều khiển, gọi là chiến lược Đó là cách chọn các hành động tối ưu a cho mỗi trạng thái quan sát

x Tối ưu nghĩa là, các hành động đó khi thực hiện sẽ đem lại các giá trị củng cố

r cao nhất, không chỉ cho các hành động tức thời mà còn cho các hành động ở tương lai chưa được lựa chọn Trường hợp phức tạp hơn là tín hiệu củng cố trễ, gán cho một hành động nào đó đã thực hiện trong quá khứ (sau một vài chu kỳ tương tác giữa tác nhân và môi trường) Tác nhân phải có nhiệm vụ liên hệ và gán giá trị củng cố trễ cho hành động đã tạo ra nó

Ban đầu tác nhân thực hiện thăm dò, bằng cách thử các hành động khác nhau một cách ngẫu nhiên để phát hiện các giá trị sử dụng của chúng Trong quá trình học xảy ra sự đụng độ giữa: (a) thăm dò các hành động khác nhau để cho phép học thêm từ môi trường, mục đích phát hiện ra hành động nào đem lại giá trị thưởng tích lũy dài hạn cao, nhưng ngược lại có thể đem lại “rủi ro”ù vàø các kết quả không mong muốn hoặc giá trị thưởng thấp (b) khai thác các hành động dẫn đến giá trị thưởng cao dựa vào các “kiến thức” trước đó Do đó một vấn đề cần đặt ra là thực hiện bài toán cân bằng giữa thăm dò và khai thác sao cho hiệu quả

Trang 19

2.2 Quá trình ra quyết định Markov (MDP)

Đối tượng học củng cố tương tác với môi trường có thể xem như quá trình ra quyết định Markov nếu môi trường đó là định thuộc Một quá trình ra quyết định Markov (Markov Decision Process) được định nghĩa

( ) ( )x , a , R x , a , ) T

), x ( A , S (

trong đó:

S: tập không gian trạng thái

x: trạng thái, x∈S, bao hàm sự mô tả đầy đủ về các điều kiện của hệ thống

A(x): tập các hành động a, a∈A ( x ), có thể chọn để thực hiện ở trạng thái

x

( )x , a

T : hàm chuyển trạng thái, với xác xuất chuyển trạng thái

P xy = = , trong đó y là trạng thái đạt được khi hành động a

được thực hiện ở trạng thái x

( )x , a

R : hàm thưởng, với giá trị thưởng r đến từ phân bố xác suất được xác định bởi hành động a thực hiện ở trạng thái x Điều cần quan tâm là giá trị thưởng kỳ vọng ở tương lai

Dễ thấy rằng nếu thời gian là vô hạn thì giá trị thưởng vẫn là hữu hạn và được định nghĩa

Trang 20

= + ++

+ +γ + = γ

k t k

k t

(2.2)

trong đó T là điểm kết thúc (trong bài toán học củng cố trễ, r có thể phụ thuộc t

vào a t , a t 1, bất kỳ, trong đó a là hành động ở bước thứ t t

γ: Hệ số giảm γ bao hàm sự dự báo trước của tác nhân Nếu

2

1

=

γ thì giá trị thưởng hiện tại gấp đôi giá trị thưởng ở bước kế tiếp Nếu γ = 1 giá trị thưởng hiện tại hoặc tương lai không còn quan trọng γ = 0 chỉ có các giá trị thưởng hiện tại mới có ý nghĩa

Thuộc tính Markov

Ở thời điểm t hệ thống quan sát trạng thái x , thực hiện hành động a Hệ thống được gọi là có thuộc tính Markov nếu khi trạng thái x đã biết thì không cần các thông tin về quá khứ của hệ thống để quyết định hành vi tương lai cho hệ thống

2.3 Qui hoạch động (Dynamic Program)

Hầu hết các giải thuật học củng cố được xây dựng bằng cách xấp xỉ qui họach động Điều này cho khả năng xử lý các bài toán củng cố trễ để đạt hiệu quả tính toán cao trong môi trường phỏng đoán

2.3.1 Chiến lược và hàm đánh giá

Tác nhân thực hiện hành động có thể mô tả bởi chiến lược

] , [ ) x ( A S

a∈ được kết nối với xác xuất chọn hành động π( x , a ) : Pr( a t =a | x t = x )

Hàmπ được gọi là chiến lược Chiến lược π được gọi là định thuộc nếu

) a , x

Trang 21

các bước kế tiếp từ trạng thái này Gọi hàm ánh xạ cặp trạng - thái hành động vào miền số thực là hàm đánh giá cho chiến lược π

R ) x ( A S

π π

k

t t

t

a a , x x r

E

) a a , x x r ( E a , x Q

) ' a , y ( Q ) ' a , y ( a

, x R a P

' a a

, y x

r E

.

) ' a , y ( a

, x R a P

a a , x x r

r E a , x Q

π π

+π







πγ+

γ+

2.3.2 Chiến lược nổi trội

Tác nhân có thể quyết định chiến lược bằng cách chọn hành động có trị giá ước lượng cao nhất bởi hàm đánh giá Qπ( )x , a

Trang 22

( )x , a = ∀a∉arg max Qπ( )x , a

Việc lựa chọn hành động như vậy được gọi là chọn nổi trội, và chiến lược được chọn gọi là chiến lược nổi trội Nếu có nhiều hơn một hành động có cùng giá trị lớn nhất thì chúng tạo thành một tập các chiến lược nổi trội

R ) x ( A S

2.3.4 Phương trình tối ưu Bellman

Theo nguyên lý tối ưu và tính chất của chiến lược π *, nếu ở trạng thái x chọn hành động a ta luôn có biểu thức

A

a max Q * x , a * x , 'a Q * y , a '

(2.7) Thay Q* vào phương trình (2.5) ta có

Trang 23

S

S y

' a '

a xy

' a , y

* Q max a

, x R a P

'a , y

* Q ' a , y

* a

, x R a P a

, x

* Q

Phương trình trên có dạng phương trình tối ưu Bellman cho hàm đánh giá hành động tối ưu Q*

Tương tự hàm đánh giá trạng thái tối ưu V* là:

=

γ+

x ( A a

S y

a xy )

x ( A a

y

* V ) a ( P )

a , x ( max

y

* V a , x R P max x

* V

a , a , a a

(x,a3)

T

x

Trang 24

2.3.5 Lặp chiến lược

Phương pháp lặp chiến lược là giải thuật cập nhật giá trị của hàm đánh giá hành động Q(x,a) hoặc hàm đánh giá trạng thái V(x) cho đến khi nào chúng hội tụ Bởi vì ở các thời điểm khác nhau, một trạng thái có thể có nhiều hành động được chọn để thực hiện và mỗi hành động có thể được thực hiện nhiều lần, do đó giá trị của chúng phải được cập nhật để học

Giả sử có hai chiến lược π với hàm đánh giá V và 'π π Để xác định π

có tốt hơn 'π, có thể tính Vπ' và so sánh với V trên toàn bộ không gian trạng π

thái, tuy nhiên điều này tốn nhiều chi phí tính toán Giả sử ở cùng trạng thái x với chiến lược π hành động a được chọn và với chiến lược 'π hành động a’ được

chọn Nếu theo chiến lược 'π một bước chọn a’ sau đó theo chiến lược π; Gọi

' a

xy π

∈

Nếu Qπ(x ,π' ( x ))>Vπ( )y với mọi x, thì 'π tốt hơn π

Giải thuật sau sẽ hội tụ về chiến lược tối ưu trong quá trình quyết định Markov hữu hạn:

Giải thuật 2.1

1 π ← chiến lược khởi tạo tùy ý; ε ←số dương rất nhỏ

2 repeat

a π_ old ←π

b tính toán hàm đánh giá trạng thái V π

c tính toán giá trị hành động Qπ( )x , a cho mọi x và a

d cập nhật chiến lược cho mọi x bởi

)x(

π ← a sao cho Q ( )x , a max Q ( )x , a

) x ( A a

π

∈

trong đó

Trang 25

( )x , a ( x , a ) P V ( )y

Q

S y

until π_ old−π <ε // π ở bước (d) không đổi

Chiến lược cuối cùng *π sẽ là chiến lược tối ưu Và nếu Q *( )x , a là giá trị hành động cuối cùng, thì biểu thức

( )x , a

* Q max )

x (

* V

) x ( A

a∈

=

theo (2.8) thì biểu thức trên là phương trình tối ưu Bellman

2.3.6 Lặp giá trị

Khó khăn lớn nhất với bài toán tìm chiến lược tối ưu trên tập chiến lược là số

chiến lược có thể rất lớn Ví dụ, nếu A không phụ thuộc vào trạng thái hiện

tại, thì có A chiến lược Vì vậy, duyệt trực tiếp tập hợp này để tìm lời giải tối S

ưu có thể phải tốn chi phíù cao Ý tưởng cơ bản của qui hoạch động được sử dụng để giải quyết điều này Đầu tiên ước lượng hàm đánh giá trạng thái tối ưu V , *

khi V đã xác định, một chiến lược tối ưu có thể nhận được bằng cách lấy hành *

động nổi trội theo V *

Vì vậy, bài toán được qui bài toán ước lược hàm đánh giá tối ưu V Điều *

này có thể thực hiện dựa vào phương trình Bellman 2.8 Giải thuật sau sẽ hội tụ về chiến lược tối ưu trong quá trình quyết định Markov hữu hạn:

Trang 26

( ) ( ( ) )

max )

x (

) x ( A a

( g

Khi có giá trị tối ưu được biết trước, có thể chứng minh rằng lặp giá trị sẽ hội tụ về hàm giá trị tối ưu

Lặp giá trị có thể chứng minh có chi phí tính toán là đa thức theo A và S

do đó lặp giá trị tốn ít thời gian hơn là duyệt qua toàn bộ tập chiến lược Tuy nhiên với số chiều không gian trạng thái hoặc hành động lớn nó vẫn còn tốn chi

phí tính toán cao

2.4 Phương pháp sai phân tạm thời (TD)

Phương pháp sai phân tạm thời (TD)[24] được sử dụng rất hiệu quả để dự báo tổng các giá trị thưởng dài hạn trong học củng cố liên quan đến giá trị thưởng trễ Ví dụ khi tác nhân tương tác với môi trường, chọn hành động ở bước đầu tiên, thì chuỗi các hành động tiếp theo chưa xuất hiện Do đó giá trị thưởng có thể bị trễ liên quan đến các hành động trong quá khứ tương ứng với nó

2.4.1 Các giá trị dự báo và giải thuật TD(λ)

Mục đích học là để tạo ra các chuỗi dự báo P t , P t 1, từ các biến bị chặn

= ∑

=

−

T t

t k

trong đó

Trang 27

T có thể là giá trị xác định hoặc T =∞ là điểm kết thúc, λ∈[ ]0;1 Nếu α

là tốc độ cập nhật

Trang 28

Giá trị dự báo được cập nhật:

t k

t t

t t t

P P

c

P P

c P

P c P

−λ

+λ

++

−λ+λ

+

−λ+α

+ +

1

1 2

1 1

Ltrong đó P T+1= 0 Biểu thức trên có thể viết lại thành

=

− +

T t k

t k k k

=

− +

(2.10) Tổng trọng số cập nhật

t k

k t T

T

k t

t k k k

k

T

T t k

t k k k

k

T

P P

P c

P P

P c

P P

P c

w w

∇λ

−λ+α

=

∇λ

−λ

+α

− +

Trang 29

( ) W k

t k

k t t t

0

1

(2.11)

trong đó 0≤λ≤1 đặc trưng cho sự phụ thuộc của giá trị ∇W P k vào các giá trị

trước đó trong quá khứ theo thời gian

So phương trình này với phương trình (2.10) thì các số hạng bước thứ t+1

đã xác định trước và không cần đợi tín hiệu củng cố để cập nhật Giá trị của tổng

trong (2.11) được lưu trữ ở dạng vết tương thích

1

1 0 0

∇

=

∇λ+

∇

=

∇λ

=

∑

t t W

k W

t k

k t t

W

k W

t k

k t t

e P

P P

P e

(2.12)

2.4.2 Dự báo tổng giá trị thưởng với TD(λ)

Trong học củng cố tổng giá trị thưởng kỳ vọng từ trạng thái x được ước lượng t

bằng hàm đánh giá trạng thái hiện tại V t( )x t Đặt

t t

k t t

∇

=

∇+

t W

k k W

t k

k t t

t W

k k W

t k

k t t

e x

V

x V x

V

x V e

Trang 30

2.5 Q-Learning

2.5.1 Giải thuật Q-learning

Phương pháp TD có thể được sử dụng để dự báo giá trị thưởng tương lai trong học củng cố Tuy nhiên, nó không xác định hành động nào nên được chọn để nhận tổng giá trị thưởng tích lũy lớn nhất Mặt khác, Q-learning là phương pháp dự báo và điều khiển Nó được xây dựng từ phương pháp qui hoạch động của lặp chiến lược đã mô tả ở 2.3.5 Trong Q-learning, giá trị hành động Q(x,a) được ước lượng Tương tác giữa tác nhân học Q-learning và môi trường được biểu diễn như hình 2.2

Hình 2.2 : Tương tác giữa hệ thống học Q-learning và môi trường

Trong learning, quá trình học gồm nhiều giai đoạn Giải thuật learning theo [21] (Chương 6, Mục 5) như sau:

Q-Giải thuật 2.3

1 Khởi tạo Q o(x o , a o)tùy ý

2 repeat (cho mỗi giai đoạn)

2.1 Khởi tạo x , t

2.2 repeat (cho mỗi bước của một giai đoạn)

2.2.1 Chọn a từ t x theo chiến lược nổi trội hoặc thăm dò t

Hành động Nhiễu

Trang 31

2.2.2 Thực hiện hành động a quan sát t r , trạng thái t y t

←

∈

t y ( A l t t t t t t

t

t ( x , a ) Q ( x , a ) r max Q y l, Q x , a

2.2.4 x t ←y t

until x là giá trị kết thúc t

trong đó α,γ lần lượt là tốc độ học và hệ số suy giảm

Chiến lược cập nhật giá trị của Q-learning được gọi là off-policy, giá trị

của hành động ở trạng thái mới phụ thuộc vào giá trị tối ưu của cặp trạng thái – hành động của trạng thái kế tiếp

Khi Q t ( x , a ) hội tụ về giá trị đúng Q * ( x , a ), thì chiến lược lựa chọn hành động nổi trội ở mọi trạng thái x là tối ưu

*

x A

l∈

=π

2.5.2 Giải thuật SARA

Rummery [22] đề nghị sử dụng giá trị hành động, bất chấp hành động đó là tối

ưu hoặc chọn ngẫu nhiên bằng cách thăm dò Để học, tác nhân quan sát một

trạng thái (State), chọn và thực hiện một hành động (Action) và nhận một tín hiệu củng cố (Reinforecement signal), sau đó là quan sát một trạng thái mới (State), chọn và thực hiện một hành động (Action) ở trạng thái này, trước khi

việc cập nhật được thực hiện Vì vậy nó có tên là Sarsa Ngược lại với

Q-learning chiến lược cập nhật của Sarsa là on-policy Giải thuật học Sarsa theo

[21] (Chương 6, mục 4) như sau:

Giải thuật 2.4

1 Khởi tạo Q o(x o , a o)tùy ý

2 repeat (cho mỗi giai đoạn)

2.1 Khởi tạo x , t

2.2 Chọn a từ t x theo chiến lược nổi trội hoặc thăm dò t

2.3 repeat (cho mỗi bước của một giai đoạn)

2.3.1 Thực hiện hành động a quan sát t r , trạng thái t y t

Trang 32

2.3.2 Chọn a t+1 từ y t theo chiến lược nổi trội hoặc thăm dò

2.3.3 Q t+1( x t , a t )←Q t ( x t , a t )+αt[r t +γQ t(y t , a t+1)−Q t(x t , a t) ]

2.3.4 x t ←y t

until tx là giá trị kết thúc

trong đó α,γ lần lượt là tốc độ học và hệ số suy giảm

2.5.3 Sarsa và TD(λ) kết hợp

Từ các phương trình (2.10), (2.11) và (2.12) ta có

=

−

lại ngược e

, a a , x x nếu Q e

e

t

t t

t w t

t

1 1

6 Thực hiện hành động ta quan sát tr

7 Nếu chưa đạt đến trạng thái kết thúc, thì t ← t + 1 trở về bước 3

8 Ngược lại Q t =0 và kết thúc

2.6 Hệ thống học chỉ trích-tác động

Trong bất kỳ bài toán học củng cố nào, có hai thực thể phải được học: (1) hàm đánh giá dự báo tổng giá trị thưởng kỳ vọng, và (2) chiến lược để chọn hành động ở mỗi trạng thái sao cho tổng giá trị thưởng tích lũy là lớn nhất Điều này

Trang 33

có thể thực hiện được bằng hệ thống học chỉ trích-tác động, trong đó chia làm hai phần thích nghi riêng: (1) ước lượng trạng thái (phần tử dự báo hoặc chỉ trích), và (2) lựa chọn hành động (phần tử thực hiện hoặc tác động) Hình 2.3 biểu diễn các thành phần cơ bản hệ thống học chỉ trích-tác động

Mạng tác động được xem là bộ điều khiển, bởi vì nó hiện thực chiến lược Nó là một bộ phận của hệ thống động lực khi nó tương tác trực tiếp với hệ thống bằng cách cung cấp tín hiệu điều khiển cho đối tượng Mạng chỉ trích thực hiện phần học củng cố bởi vì nó cung cấp sự đánh giá chiến lược và có thể sử dụng để thay đổi chiến lược Hệ thống này thuận lợi cả về học củng cố và điều khiển Bởi vì chiến lược được tính toán tường minh ở mạng tác động cho nên các tín hiệu điều khiển thời gian thực được cung cấp đầy đủ cho hệ thống

Nhược điểm của hệ thống học chỉ trích – tác động giải thuật huấn luyện phức tạp và thời gian huấn luyện kéo dài (Sutton và Barto, 1998)

Hình 2.3: Hệ thống học chỉ trích – tác động

2.7 Thăm dò và khai thác (explore and exploit)

Môi trường

Chiến lược

Hàm đánh giá

Trang 34

Tác nhân phải duyệt qua một chuỗi các trạng thái nhiều lần để học cách tìm ra chiến lược tối ưu trên các tập chiến lược Không thăm dò tác nhân chỉ tìm thấy chiến lược đầu tiên, có thể là tốt, nhưng còn nhiều chiến lược khác tốt hơn chưa được tìm Để thăm dò tác nhân phải thử các hành động mà nó chưa chọn trong quá khứ Nhưng tác nhân phải thực hiện như thế nào với mức độ ra sao để thăm dò các hành động xung quanh hơn là sử dụng các hành động đã biết giá trị (“kiến thức” của tác nhân trong quá trình học) Việc sử dụng các “kiến thức” để chọn hành động sao cho tổng giá trị thưởng dài hạn là cao nhất được gọi là khai thác Vấn đề đặt ra trong học củng cố là sự cân bằng giữa khai thác và thăm dò Nếu không thăm dò thì sẽ không phát hiện được những hành động nào đáng giá; mặt khác thăm dò gặp nhiều rủi ro, có thể nhận được nhiều giá trị thưởng thấp và tốn chi phí tính toán Nhưng ngược lại nếu thăm dò quá nhiều, tác nhân sẽ không xác định được chiến lược cụ thể nào; hay nói khác hơn là chưa học: không khai thác các “kiến thức” đã có và hoạt động như thể chưa biết gì

2.7.1 Phương pháp thăm dò ε-greedy

Cách đơn giản nhất để bảo đảm có thăm dò là chọn ngẫu nhiên một hành động trong một tập hành động ở một trạng thái nào đó Tác nhân chọn hành động nổi trội với xác xuất là ε và hành động ngẫu nhiên với xác xuất là 1-ε

Phương pháp này có nhược điểm là tác nhân không thực hiện tối ưu nhưng nếu thời gian học đủ dài thì chiến lược cuối cùng theo phương pháp này sẽ là chiến lược tối ưu

2.7.2 Phương pháp thăm dò dùng phân bố xác xuất Boltzmann

Tại mỗi bước học, ở trạng thái x xác xuất thứ i để chọn hành động a i ∈A( )x

được xác định theo phân bố xác suất Boltzmann

∑

=

n 1 j

T

) a , x ( Q T

) a , x ( Q

i

e

e p

(2.14)

trong đó ( ,i j = 1 → n ) với n là số phần tử của A ( ) x (số lượng các hành động có thể ở trạng thái x); T là số thực không âm được gọi là tham số nhiệt độ (Temperature) Q(x,a) là giá trị của hành động a thực hiện ở trạng thái x

Trang 35

Tham số T đặc trưng cho khả năng chọn hành động nổi trội Nếu T tiến ra

∞, xác xuất chọn hành động nổi trội dần về phân bố chuẩn (tất cả các hành động có cùng xác xuất để chọn); Nếu T dần về 0, xác xuất lựa chọn hành động có giá trị lớn nhất tiến đến 1, trong khi xác xuất lựa chọn các hành động khác dần về 0 Nếu có k hành động có cùng giá trị lớn nhất thì xác xuất để chọn một hành động nào đó trong k hành động này sẽ dần về

T

) a , x ( Q ) a , x ( Q

n 1 j

T

) a , x ( Q T

) a , x ( Q i

i j

j i

e 1 e

e p

trong đó Q ( ) x , aj ∈ [ Qmin Qmax] ⊂ Z và p i ∈[ ]0 , 1 ⊂ R,

do Q ( x , a i )−Q ( x , a j ) là hữu hạn ∀ ai, aj và

0 T

) a , x ( Q ) a , x ( Q

1 lim

n 1 j

T

) a , x ( Q ) a , x ( Q

Trang 36

1 j

T

) a , x ( Q ) a , x (

e 1

1 e

0

1 e

1

1 lim

0

0 e

1

1 lim

a j 1

T

) a , x ( Q ) a , x ( Q n

1 j

T

) a , x ( Q ) a , x ( Q

l i

i j

e k

1 e

1

Trang 37

cuối cùng

k e

k

lim

n

k , , , l l a i

a j

T

) i a , x ( Q ) j a , x ( Q T

11

2 1 1

Nếu cho trước một số ε dương nhỏ tùy ý, cận trên và cận dưới của Q( )x , a

là Q max và Q min

min Q max Q T

=δ

≠≠

Lý thuyết trên được sử dụng để tìm tốc độ suy giảm của tham số nhiệt độ T

2.8 Hàm củng cố – Hàm giá trị thưởng

Hàm củng cố phụ thuộc vào mục tiêu của tác nhân học Trong những bài toán học củng cố đơn giản giá trị thưởng là số thực dương khi đạt được mục tiêu và phạt là số thực âm cho các trường hợp không mong muốn Trong những bài toán phức tạp hơn cần phải thay đổi hàm củng cố sao cho tác nhân phát hiện được cách để nhận giá trị thưởng trước khi nó hoàn thành xong mục tiêu gốc ở lần đầu Nếu hàm củng cố không được định nghĩa tốt tác nhân học chỉ học các ở

Trang 38

những vùng tối ưu cục bộ của chiến lược Lấy ví du minh họa robot học để nhặt vật thải đặt vào thùng chứa [9] Nếu giá trị thưởng dương nhỏ được cho khi robot nhặt được một vật thải lên, thì sẽ rơi vào trường hợp robot nhiều lần nhặt vật lên và thả xuống đất để nhận tổng giá trị thưởng lớn hơn Để tránh điều này có thể cho giá trị phạt âm cho những hành động giống nhau lặp đi lặp lại liên tục nhiều lần, vì vậy robot sẽ bị phạt cho những trường hợp đặt vật thải xuống ngoại trừ vật thải được đặt vào thùng chứa

Tùy thuộc vào mục tiêu bài toán như tối ưu về thời gian, năng lượng, sự trơn hoá khi chuyển động hoặc thỏa hiệp các tiêu chí mà hàm củng cố sẽ được định nghĩa khác nhau Tổng quát, hàm củng cố là tổ hợp của các hàm theo biến trạng thái, hoặc biến hành động

( ) ( )

f

R=

trong đó x là biến trạng thái, a là các biến hành động

Xác định hàm thưởng để robot học tránh vật cản là vấn đề cần cân nhắc Nếu không các định tốt dễ bị dẫn đến tối ưu cục bộ và do đó chiến lược chọn hành động để đạt mục tiêu sẽ bị phá sản Về nguyên tắc hàm thưởng cho bài toán robot học tránh vật cản được xác định như sau:

• Giá trị phạt (penalty) có thể là vô hạn khi cánh tay robot đụng vào vật cản và giảm (giá trị thưởng tăng) theo khoảng cách so với vật cản Hàm thưởng có thể là tổng các hàm thưởng riêng lẽ từ các vật cản và, có lẽ, phải cộng thêm giá trị thưởng nếu khác nếu cấu hình robot thuận lợi theo tiêu chí nào đó, ví dụ không lệch ra khỏi đường đi ngắn nhất giả sử được xác định trước

• Ở bất kỳ cấu hình robot, giá trị của hàm thưởng có thể xác định và được ước lượng bằng đạo hàm riêng phần theo thông số của cấu hình Hình 4.4,

ví dụ mobile robot nhỏ, chuyển động tránh vật cản như hình 4.4(a), trong đó hàm thưởng chỉ là một hàm biến đổi đơn giản theo hình dạng vật cản Đối với cánh tay robot không đơn giản như vậy mà hàm thưởng phải là hàm theo không gian quanh vật cản và cấu hình cánh tay như hình 4.4(b) Để giải quyết vấn đề này phải ánh xạ môi trường của robot về không gian mà trong đó trạng thái của robot chỉ tương đương với một điểm gọi là không gian cấu hình 4.4(c)

Trang 39

(a)

(b)

Hình 4.4 Minh họa hàm thưởng

(a): Robot hình tròn đơn giản chuyển động quanh vật cản và các giá trị thưởng là hàm theo hình dạng vật cản

(b): Cánh tay robot chuyển động quanh vật cản và giá trị thưởng là hàm phụ thuộc vào không gian hoạt động quanh vật cản và cấu hình của cánh tay

(c): Ánh xạ từ môi trường robot sang không gian cấu hình

- ∞

100

500 100

0

θ1

θ2

Trạng thái Robot

Không gian đụng độ Vật cản

(c)

Trang 40

Một phương pháp khác được đề nghị bởi Khatib,1980 là hàm thưởng thỏa mãn định nghĩa về trường thế; gradient của trường này tại một điểm đại diện cho lực đẩy tương tác tại điểm đó (về mặt hình học gradient tại một điểm là véc tơ pháp tuyến của miền chứa điểm đang xét), ngoại trừ ở đích là lực hút Sự chuyển động của robot theo kết quả tương tác của hai lực trên sẽ dẫn đến các ràng buộc động học Bằng cách bám theo gradient của trường thế robot có khả năng tránh vật cản như hình 4.4

Tuy nhiên phương pháp trên có hạn chế là quĩ đạo dễ bị rơi vào các điểm cực tiểu của trường thế [14] giải quyết nhược điểm này bằng cách giải phương trình Laplace để nhận được trường thế nhân tạo chỉ có điểm cực tiểu ở đích và các điểm cực đại ở tại vật cản Kết quả là quĩ đạo bám theo gradient của trường thế không đụng vật cản trơn Phương pháp này có nhược điểm là tốn chi phí rất cao cho tính toán lặp để tìm ra trường thế mặc cho giải thuật là online Thực ra phương pháp này chỉ có ý nghĩa khi qui hoạch quĩ đạo chuyển động cho robot, còn đối với học củng cố vấn đề sẽ trở nên dễ dàng hơn

Các ví dụ về thiết kế hàm củng cố

1 Bài toán mô phỏng mobile robot chuyển động tránh vật cản trong khung lưới hình 2.4 (nguồn sneumann@gmx.net)

Hình 2.4: Học củng cố để chuyển động về đích và tránh vật cản

Xuất phát

Vật cản Quĩ đạo chuyển động Đích

Định dạng
Số trang	109
Dung lượng	777,88 KB