Thuật toán học tăng cường và ứng dụng trong bài toán tìm đường đi cho robot

Mục đích, nhiệm vụ nghiên cứu Luận văn tập trung vào 3 mục tiêu chính sau: Nắm vững các kiến thức về phương pháp học tăng cường, hiểu rõ các ý tưởng, các cơ chế hoạt của thuật toán và ứ

Trang 1

TRƯỜNG ĐẠI HỌC VINH

TRẦN QUỐC KIỆT

THUẬT TOÁN HỌC TĂNG CƯỜNG VÀ ỨNG DỤNG TRONG BÀI

TOÁN TÌM ĐƯỜNG ĐI CHO ROBOT

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Trang 2

TRƯỜNG ĐẠI HỌC VINH

TRẦN QUỐC KIỆT

THUẬT TOÁN HỌC TĂNG CƯỜNG VÀ ỨNG DỤNG TRONG BÀI

TOÁN TÌM ĐƯỜNG ĐI CHO ROBOT

CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN

MÃ SỐ: 60.48.02.01

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Người hướng dẫn khoa học: TS.Trần Xuân Sang

NGHỆ AN, 3/2017

Trang 3

LỜI CẢM ƠN

Trong suốt quá trình học tập cũng như quá trình làm luận văn, em đã nhận được sự quan tâm của Ban giám hiệu trường Đại Học Vinh, Ban Giám Hiệu trường Đại học Kinh Tế Công Nghiệp Long An, sự giúp đỡ của các thầy

cô giáo trong khoa Công Nghệ Thông Tin khoa sau Đại Học trường Đại học Trường Đại học Vinh, khoa Liên kết Trường Đại học Kinh Tế Công Nghiệp Long An Đặc biệt là sự hướng dẫn tận tình của thầy giáo hướng dẫn TS Trần Xuân Sang Với lòng biết ơn sâu sắc cô trưởng khoa CNTT TS Phan Lê Na, thầy phó khoa CNTT TS Hoàng Hữu Việt đã giúp đỡ để em hoàn thành luận văn thạc sỹ khoa học này

Em cũng xin gửi lời cảm ơn tới ban lãnh đạo, các đồng nghiệp nơi em đang công tác đã tạo điều kiện giúp em, cảm ơn các bạn ban cán sự lớp cao học CNTT khóa 23 Long An đã cũng em có khoảng thời gian học tập rất bổ ích Cuối cùng, em xin gửi lời cảm ơn tới gia đình, bạn bè, những người thân

đã luôn động viên và chia sẻ cũng em trong suốt thời gian học tập

Trang 4

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn này là do tự bản thân thực hiện và là sản phẩm của riêng tôi Các số liệu và tài liệu trong luận văn là trung thực, các tin thứ cấp sử dụng trong luận văn là có nguồn gốc và được trích dẫn rõ ràng

Tôi hoàn toàn chịu trách nhiệm về tính xác thực và nguyên bản của luận văn

Học viên thực hiện Tác giả Trần Quốc Kiệt

Trang 5

Chương 2 CÁC THUẬT TOÁN HỌC TĂNG CƯỜNG 20 2.1 Tổng quan về phương pháp học tăng cường 20

2.2.2 Thuật toán Sarsa (state, action, reward, state, action) 25

Chương 3 THIẾT KẾ HỆ THỐNG THỬ NGHIỆM 30

3.1 Bài toán mô phỏng tìm đường đi ngắn nhất cho robot môi trường 2x3 28

3.1.2 Trạng thái và hành động để đi đến mục tiêu 29

Trang 6

3.1.3 Thực hiện một vài bước của thuật toán Q-Learning 31

3.2 Bài toán mô phỏng tìm đường đi ngắn nhất cho robot môi trường 5x5 38

3.3 Đánh giá mô phỏng dự trên các thuật toán Q-Learning , Sarsa, DynaQ 41 3.3.1 Mô tả và yêu cầu của bài toán mô phỏng đánh giá 41

Trang 7

DANH MỤC CÁC TỪ VIẾT TẮT

Học tăng cường (Reinforcement Learning) RL

Phương pháp quy hoạch động (Dynamic

Trang 8

DANH MỤC CÁC HÌNH

DynaQ

Hình 3.17

Sơ đồ đường đi thuật toán Q-learning Hình 3.19

Sơ đồ so sánh số phương án tối ưu của thuật toán Hình 3.22

Sơ đồ so sánh hệ số học và giá trị chiến lược Hình 3.23 Mối quan hệ giữa số đoạn lặp và hệ số học Hình 3.24

Trang 9

MỞ ĐẦU

1 Lý do chọn đề tài

Trước đây, người ta giải quyết bài toán tìm đường bằng cách sử dụng các thuật toán tìm đường cổ điển, ví dụ như thuật toán Dijkstra, thuật toán Bellman-Ford, thuật toán Johnson Tuy nhiên các thuật toán tìm đường nói trên có một số hạn chế như là đòi hỏi môi trường phải được xác định trước và không thay đổi trong quá trình tìm đường Như vậy các thuật toán đó không xử lý được các bài toán tìm đường đi thực tế vì môi trường đường đi trong thực tế thường bị thay đổi Với sự phát triển của trí tuệ nhân tạo, ngày nay các công nghệ với sự trợ giúp của máy tính, máy tính có thể “học”, hay nói cách khác là tự tìm ra được quy luật hành động nói chung hay tự tìm đường nói riêng thông qua các kinh nghiệm thu được từ những hành động được thực hiện trước đó

Từ các thực tế đó, chúng tôi hướng tới việc nghiên cứu thuật toán học tăng cường Q-learning để áp dụng trong việc lập kế hoạch đường đi cho các robot tự

hành

2 Lịch sử vấn đề

Các phương pháp học máy đã được đề xuất để chỉ khả năng các hệ thống thông minh có khả năng tự tích lũy thông tin trong quá trình hoạt động, phân tích các thông tin thu được từ đó tự nâng cao khả năng của hệ thống, đây chính là mục đích quan trọng trong lý thuyết quyết định cũng như trong các bài toán tự động hoá và điều khiển tối ưu

3 Đối tượng và phạm vi nghiên cứu

3.1 Đối tượng nghiên cứu

Nghiên cứu lý thuyết:

Trang 10

Nghiên cứu các tài liệu về thuật toán học tăng cường đã công bố ở trong và ngoài nước

Nghiên cứu tài liệu về trích chọn đặc trưng của các thuật toán học tăng cường

Nghiên cứu các thuật toán học tăng cường áp dụng trong bài toán tìm đường đi ngắn nhất

Nghiên cứu thực nghiệm:

Nghiên cứu cách xây mô hình đường đi ngắn nhất cho robot

Cài đặt cho bài toán tìm đường đi ngắn nhất và cài đặt đánh giá thuật toán học tăng cường

3.2 Phạm vi nghiên cứu

Bài toán tìm đường đi ngắn nhất có thể được thực hiện bằng nhiều thuật toán khác nhau như: thuật toán Sarsa, Dyna-Q, DynaH …và có thể được giải quyết với thời gian hội tụ khá nhanh

Trong phạm vi Luận văn này, tôi tập trung vào các phương pháp phương pháp Monte Carlo (MC) và phương pháp Temporal Difference (TD) để giải quyết bài toán tìm đường đi ngắn nhất cho Robot

4 Mục đích, nhiệm vụ nghiên cứu

Luận văn tập trung vào 3 mục tiêu chính sau:

Nắm vững các kiến thức về phương pháp học tăng cường, hiểu rõ các ý tưởng, các cơ chế hoạt của thuật toán và ứng dụng trong bài toán cụ thể

Nghiên cứu và cài đặt bài toán tìm đường đi ngắn nhất bằng các thuật toán học tăng cường (thuật toán Q-Learning)

Trang 11

Đánh giá hiệu quả của các thuật toán qua mô phỏng

5 Phương pháp nghiên cứu

Nghiên cứu tổng quan về bài toán tìm đường đi ngắn nhất bằng thuật toán học tăng cường đã được công bố

Nghiên cứu về bài toán quyết định Markov về sự hội tụ áp dụng vào học tăng cường

Nghiên cứu các thuật toán học tăng cường với hai phương pháp là học dựa trên mô hình và học không có mô hình

Lập trình các thuật toán trên máy tính và đánh giá hiệu quả của các thuật toán

6 Đóng góp của luận văn

Trong Luận văn chỉ ra các thuật toán Dyna-Q là có hiệu quả tốt nhất trong

số các thuật toán Q-learning, Sarsa, Q (k), Sarsa (k) Tuy nhiên luận văn chỉ nhấn mạnh trên các mô phỏng trong phạm vi mê cung

7 Cấu trúc của luận văn

Luận văn gồm 3 phần:

Chương 1 Tổng quan

Chương 2 Các thuật toán học tăng cường

Chương 3 Thiết kế hệ thống thử nghiệm

Kết luận

Trang 12

Chương 1 TỔNG QUAN 1.1 Đặt vấn đề

Xác định đường đi hoặc xác định quỹ đạo đường đi của robot di động là đề cập đến việc xác định một con đường không có chướng ngại vật từ vị trí của nó đến một vị trí mục tiêu thông qua một môi trường nhiều vật cản mà không cần

sự can thiệp của con người Hiện nay các phương pháp học máy đã cho phép robot có thể tự tìm đường và di chuyển dựa vào việc cập nhật trạng thái hiện thời của môi trường mà nó đang hoạt động

1.2 Phát biểu bài toán cây quyết định markov

Bài toán quyết định Markov là bài toán học từ các tác động để đạt được mục đích Người học và người ra quyết định được gọi là tác tử Tất cả những gì

mà chúng tương tác với, bao gồm mọi thứ bên ngoài tác tử được gọi là môi trường Các tác động thực hiện một cách liên tục, tác tử lựa chọn các hành động, môi trường đáp ứng lại các hành động đó và chuyển từ trạng thái hiện thời sang trạng thái mới Môi trường cũng đem lại các mục tiêu, các giá trị bằng số mà tác

tử cố gắng cực đại hoá qua thời gian Một đặc tả hoàn thiện về môi trường được coi là một “nhiệm vụ”, một thực thể của bài toán quyết định Markov Tóm lại, bài toán quyết định Markov liên quan đến lớp bài toán trong đó một tác tử rút ra kết luận trong khi phân tích một chuỗi các hành động của nó cùng với tín hiệu

vô hướng được đưa ra bởi môi trường

Học tăng cường là phương pháp học thông qua tương tác với môi trường

Mô hình của học tăng cường gồm có 3 thành phần chính: tác tử (agent), môi trường (environment) và giá trị phản hồi (reward) Quá trình học là một quá trình lặp đi lặp lại (iteration) các hành động (action) Sau khi thực hiện mỗi hành động thì agent nhảy từ vị trí (hay trạng thái - state) này sang vị trí (trạng thái) khác, và đồng thời nhận được giá trị phản hồi (reward) từ hành động cũ Dựa vào các giá trị phản hồi nhận được agent có thể điều chỉnh luật chọn hành động

Trang 13

(policy) của mình trong các bước tiếp theo Việc điều chỉnh và tối ưu hóa luật chọn hành động dựa vào các giá trị phản hồi chính là quá trình học tăng cường

Rõ ràng là quy luật chọn lựa hành động của agent thu được sau quá trình học càng gần tối ưu nếu quá trình học càng kéo dài và số lượng các tình huống mà agent gặp phải là càng nhiều

Hình 1.1: Sơ đồ học tăng cường

Với mô hình học tăng cường như vậy thì vấn đề cần giải quyết là các thông tin phản hồi (reward) được xử lý như thế nào Sau mỗi hành động thì tác tử nhận được một giá trị phản hồi và sau một quá trình học lâu dài thì số lượng các thông tin phản hồi này là rất lớn mà tại mỗi thời điểm không thể quan tâm đến tất cả mọi giá trị này được Để giải quyết vấn đề này thì mô hình học tăng cường được đưa về mô hình Markov (MDP - Markov Decision Process), là sự mở rộng của chuỗi Markov Chuỗi Markov là một quá trình ngẫu nhiên mà giá trị hàm xác suất (probability distribution function) của mỗi bước tiếp theo chỉ phụ thuộc vào các thông số của bước trước đó, điều này cho phép ta chỉ quan tâm tới giá trị phản hồi ngay trước đó tại mỗi vị trí Lý thuyết học tăng cường hiện nay dựa vào

mô hình Markov, do đó các bài toán không thể đưa về được mô hình Markov thì không thể giải quyết được bằng phương pháp học tăng cường Mô hình Markov (MDP) được định nghĩa là tập hợp (tuple) <S, A, T, ρ>: [1]

S: tập các vị trí (hay trạng thái- state)

A: tập các hành động (action); R: là tập điểm thưởng

Action (a t ) Agent

Environment

State (st)

Reward (rt)

srt+1t+1

Trang 14

T: SxA -> P(S): là hàm xác suất (probability distribution function) cho từng cặp trạng thái - hành động Hàm này gán giá trị xác suất cho từng cặp trạng thái - hành động

ρ: SxA -> R: là payoff function, gán giá trị phản hồi cho từng hành động tại vị trí xác định Mô hình Markov có thể là xác định (với từng cặp trạng thái - hành động xác định thì cho ra vị trí kế tiếp giống nhau ở mọi thời điểm) hoặc không xác định Với mô hình Markov xác suất chuyển đến vị trí s’ từ vị trí s và hành động a là:

1 2

R  r  r   r

Trong đó T là bước cuối cùng trước khi đến đích [1]

Thực nghiệm cho thấy nếu ta giảm dần mức độ quan trọng của các bước ở các thời điểm xa với thời điểm hiện tại thì quá trình học sẽ hội tụ nhanh hơn Điều đó có nghĩa là ta cần thêm vào hệ số khấu hao γ Giá trị phản hồi ở thời điểm cách hiện tại bao nhiêu bước thời gian thì sẽ được nhân với giá trị khấu hao

γ bấy nhiêu lần Như vậy giá trị “return” sẽ được tính như sau:

Trang 15

Mọi thuật toán của học tăng cường đều dựa trên hàm giá trị Hàm giá trị cung cấp giá trị dự đoán mức độ “tốt” của tác tử ở vị trí hiện tại trong quá trình tìm đến đích Hàm này chính là giá trị “return” ước tính tại từng vị trí (hay trạng thái - hành động ) ứng với một luật chọn hành động (policy) xác định nào đó Ta

có thể xác định hàm giá trị theo vị trí hay theo cặp giá trị trạng thái - hành động

Hàm giá trị theo vị trí (state - value function) V ứng với luật chọn hành động π tại vị trí s được xác định như sau:

1 0

Trang 16

mỗi vị trí s Các loại thuật toán học tăng cường thông thường gồm có lập trình động (dynamic programming), Monte-Carlo và phương pháp TD (temporal difference) Tuy nhiên các phương pháp lập trình động và Monte-Carlo không hiệu quả do đòi hỏi bộ nhớ quá lớn, hoặc mô hình phải xác định hay khó hội tụ nên ít khi cho ra kết quả tối ưu Phương pháp TD là sự kết hợp của những phương pháp kể trên và cho phép giải quyết được nhiều bài toán thực tế bởi vì phương pháp này không đòi hỏi môi trường xác định và có khả năng hội tụ cao Một biến thể của phương pháp TD được gọi là Q-learning, là phương pháp học kiểu TD theo hướng off-policy, rất hiệu quả trong việc giải quyết các bài toán tìm đường [3]

Ví dụ 1: Trò chơi Tic-Tac-Toe Hai người chơi thực hiện chơi trên một bảng kích thước 4x4 Một người ghi kí hiệu X và một người ghi kí hiệu O, đến tận khi có người thắng nhờ ghi 4 dấu trên cùng một hàng dọc hoặc hàng ngang hoặc hàng chéo, như người ghi dấu X trong hình vẽ:

Hình 1.2: Mô phỏng trò chơi Tic-Tac-Toe

Nếu bảng bị lấp đầy mà không người chơi nào ghi được 4 dấu trong cùng một hàng thì trận đấu sẽ hoà Bài toán tic-tac-toe được tiếp cận sử dụng RL như sau:

Trạng thái: Bảng 4x4

Hành động: phép di chuyển tiếp theo

Mục tiêu: 1 nếu thắng, -1 nếu thua, 0 nếu hoà

Bài toán: tìm π: S→A sao cho R lớn nhất

Trang 17

Ví dụ 2: Robot di động

Trạng thái: vị trí của Robot và của người

Hành động: sự di chuyển

Mục tiêu: số các bước đối mặt thành công

Bài toán: tìm π: S→A sao cho R lớn nhất

Để hiểu rõ ràng về các bài toán trong thực tế, ở đây chúng ta xét ví dụ một cuộc đối thoại về mối quan hệ giữa tác tử và môi trường như sau:

Môi trường: Bạn đang ở trạng thái 65 Bạn có 4 hành động để lựa chọn

a) Chiến lược:

Trang 18

Chiến lược định nghĩa cách thức tác tử học từ hành động tại thời điểm đưa

ra Chiến lược là một ánh xạ từ tập các trạng thái của môi trường đến tập các hành động được thực hiện khi môi trường ở trong các trạng thái đó

b) Hàm phản hồi:

Hàm phản hồi dùng để định nghĩa mục tiêu trong bài toán quyết định Markov Nó ánh xạ mỗi trạng thái quan sát được (hoặc một cặp trạng thái-hành động) của môi trường với một giá trị phản hồi thực chất về trạng thái đó

Trong các bài toán số bước hữu hạn với những bài toán này ta có một số hữu hạn các bước trong tương lai Sẽ tồn tại một trạng thái kết thúc và một chuỗi các hành động giữa trạng thái đầu tiên và trạng thái kết thúc được gọi là một giai đoạn Ta có:

1 1

R   r r   r  [4]

Trong đó K là số các bước trước trạng thái kết thúc

Trong các bài toán số bước vô hạn Với những bài toán này ta có chuỗi các hành động là vô hạn Một hệ số suy giảm γ, 0≤γ≤1 được đưa ra và hàm phản hồi được biểu diễn dưới dạng tổng của các giá trị mục tiêu giảm dần:

Trang 19

t t

a S

Có hai phương pháp thường được sử dụng để giải các bài toán quyết định

đó là tìm kiếm trong không gian chiến lược và tìm kiếm trong không gian hàm giá trị hay còn gọi là “phép lặp chiến lược” và “phép lặp giá trị” Hai phương pháp này chính là các giải thuật học tăng cường đặc trưng Ngoài ra còn xuất hiện một phương pháp lai giữa hai phương pháp trên: Actor-Critic learning

b) Phép lặp chiến lược

Ý tưởng là ở chỗ, bắt đầu từ một chiến lược bất kỳ π và cải thiện nó sử dụng V để có một chiến lược tốt hơn π’ Sau đó có thể tính V' và cải thiện nó với một chiến lược tốt hơn nữa π”,…Kết quả của tiến trình lặp này, có thể đạt được một chuỗi các bước cải thiện chiến lược và các hàm giá trị

Thuật toán lặp chiến lược:

(1) Bắt đầu với một chiến lược bất kỳ π

(2) Lặp đánh giá chiến lược π

Cải tiến chiến lược tại mỗi trạng thái

Đến tận khi chiến lược không có khả năng thay đổi

c) Phép lặp giá trị

Trang 20

Trong phương pháp này, chúng ta không cố gắng quyết định chiến lược một cách rõ ràng, mà sẽ quyết định hành động có giá trị tối ưu cho mọi trạng thái Thuật toán lặp giá trị sinh ra từ dạng đệ qui của hàm giá trị trạng thái tối ưu Bellman Phương trình chi phối thuật toán lặp giá trị như sau:

1.2.4 Phân loại thuật toán học tăng cường

Các thuật toán học tăng cường được chia thành hai loại chính đó là: học dựa trên mô hình (model-based) và học không có mô hình hay nói cách khác học

tự do (model-free) Đại điện cho kiểu học dựa trên mô hình phải kể đến phương pháp quy hoạch động (Dynamic Programming DP), còn đại diện cho kiểu học không có mô hình là phương pháp Monte Carlo và phương pháp TD (Temporal Difference)

a) Học dựa trên mô hình

Phương pháp này thực hiện học theo mô hình và sử dụng nó để quyết định chính sách tối ưu Tác tử ước lượng mô hình từ các quan sát về cả khả năng chuyển đổi trạng thái và hàm tăng cường, cuối cùng sẽ sử dụng mô hình ước lượng này như là mô hình thực tế để tìm ra chiến lược tối ưu Một cách cụ thể, tác tử tiến hành lập kế hoạch và biên dịch kết quả sang một tập các phản hồi nhanh hoặc các luật tình huống – phản hồi, sau đó sẽ được sử dụng trong quyết định thời gian thực Cách tiếp cận này tuy nhiên bị giới hạn vào sự phục thuộc của nó vào một mô hình hoàn thiện về môi trường

b) Học không có mô hình

Trang 21

Phương pháp này tìm thấy chính sách tối ưu mà không phải học theo mô hình Tác tử học các giá trị hành động mà không có mô hình về môi trường được

mô tả bởi '

a ss

R Trong phương pháp này tác tử tương tác trực tiếp với môi trường và biên dịch thông tin nó thu thập được thành một cấu trúc phản hồi mà không có học từ mô hình Trong phương pháp này, các bước chuyển đổi trạng thái và các giá trị phản hồi tác tử quan sát thay thế cho mô hình môi trường

1.3 Tổng quan về tình hình nghiên cứu

a) Tình hình nghiên cứu trong nước

Thuật toán học tăng cường được nghiên cứu ở Việt Nam từ những năm

2000 và đã cũng có công bố cụ thể “Tìm đường đi ngắn nhất bằng phương pháp q-learning” đăng trên tạp chí chí Khoa học Công nghệ & Thực phẩm xuất bản

2014

b) Tình hình nghiên cứu ngoài nước

Ở ngoài nước có những công trình nghiên cứu về các lĩnh vực học tăng cường nổi bật là công trình luận án tiến sĩ “Q-Learning for Robot Control”, luận

án tiến sĩ của tác giả Coulom R năm 2000 Đã đưa những phương pháp học tăng và áp dụng hiệu quả vào thực tế

Trang 22

Chương 2 CÁC THUẬT TOÁN HỌC TĂNG CƯỜNG

2.1 Tổng quan về phương pháp học tăng cường

2.1.1 Phương pháp Monte Carlo (MC)

Các phương pháp Monte Carlo thích hợp cho việc học từ các kinh nghiệm trong đó không yêu cầu nhận thức trước đó về tính động của môi trường Chúng giải quyết bài toán quyết định dựa trên việc tính trung bình các giá trị phản hồi mẫu

Phương pháp MC kiểm tra toàn bộ ước lượng Vπ(s) bằng trung bình các phản hồi sau tất cả các bước kiểm tra đối với s Qπ(s,a) được ước lượng là trung bình các phản hồi sau tất cả các bước kiểm tra đối với cặp (s,a) Phương pháp

MC kiểm tra đầu tiên tính trung bình chỉ giá trị phản hồi sau bước kiểm tra đầu tiên trong phép ước lượng Vπ(s) và Qπ(s,a) Cả hai phương pháp này đều hội tụ đến Vπ(s) hoặc Qπ(s,a) như là số các bước đến s hoặc cặp (s,a)

Thuật toán sử dụng chiến lược bằng phương pháp MC lặp vô hạn:

(1) Tạo một đoạn mẫu sử dụng chiến lược được ước lượng (2) s0, a0,s1, a1, r1, …,st, rt

(1) (2) Với mỗi trạng thái s xuất hiện trong đoạn

total total CurrentFirstOccurrence

( ) ( ) R total s

Nếu có mô hình môi trường thì các giá trị trạng thái đủ khả năng để quyết định chiến lược Chúng ta không thể sử dụng các ước lượng giá trị trạng thái để quyết định chiến lược mà không có mô hình về môi trường

Trang 23

Trong khi đó, chúng ta có thể sử dụng các ước lượng giá trị hành động trong việc quyết định chiến lược mà không cần yêu cầu mô hình môi trường Với một chiến lược π, chúng ta sẽ chỉ quan sát các giá trị phản hồi đối với chỉ một hành động tại mỗi trạng thái

Như vậy, ước lượng Monte Carlo của các trạng thái khác sẽ không cải tiến theo kinh nghiệm Đây là một vấn đề quan trọng vì mục đích của các giá trị hành động học là giúp cho việc lựa chọn giữa các giá trị có hiệu lực trong mỗi trạng thái Kết quả là chúng ta cần ước lượng giá trị của tất cả các hành động từ mỗi trạng thái Để giải quyết vấn đề này, chúng ta có thể bắt đầu mỗi đoạn tại một cặp hành động - trạng thái, mọi cặp như vậy sẽ có khả năng lựa chọn khác 0 khi bắt đầu Giải pháp khác là sử dụng chiến lược ngẫu nhiên với khả năng lựa chọn tất cả các hành động khác 0 Điều này đảm bảo rằng tất cả các cặp hành động – trạng thái sẽ được kiểm tra một số lần vô hạn trong giới hạn là có vô hạn các đoạn

Chiến lược tối ưu sử dụng phương pháp MC Bắt đầu với một chiến lược π ngẫu nhiên và Q(s,a) ngẫu nhiên lặp vô hạn:

(a) Tạo một đoạn mẫu sử dụng π với khả năng lựa chọn tất cả các hành động là khác 0, độc lập với π tại thời điểm bắt đầu s0, a0,s1, a1, r1, …,st, rt

(b) Với mỗi cặp s, a xuất hiện trong đoạn

Trang 24

hành động Khả năng thực hiện có thể được chuyển dần chiến lược hướng đến chiến lược tối ưu Ví dụ, có thể áp dụng phương pháp lựa chọn hành động ε-greeady và softmax để thực hiện khả năng trên

2.1.2 Phương pháp MC on-policy

On-policy: hành động tiếp theo được chọn dựa vào policy

Trong phương pháp này, chiến lược điều khiển tác tử sẽ được cải thiện Một chiến lược soft sử dụng phương pháp lựa chọn hành động ε-greeady là một chiến lược ngẫu nhiên

Chúng ta có thể thay đổi thuật toán cho chiến lược tối ưu với giả sử rằng phép lựa chọn tất cả các hành động độc lập với π tại thời điểm bắt đầu sử dụng các chiến lược soft Các chiến lược soft đảm bảo phép lựa chọn tất cả các hành động tại tất cả các bước

Thuật toán 1: Phương pháp MC on-policy

Trang 25

Trong phương pháp này, chiến lược được sử dụng để tạo hành vi khác so với chiến lược được ước lượng và cải tiến Chiến lược được sử dụng để tạo hành

vi được gọi là chiến lược hành vi và chiến lược khác được gọi là chiến lược ước lượng Một đặc điểm quan trọng của chiến lược hành vi đó là chiến lược cần phải có khả năng lựa chọn tất cả các hành động được lựa chọn bởi chiến lược ước lượng là khác 0

Thuật toán 2: Phương pháp MC off-policy

0 , 0 , , 1 1 , , , 2 1 , 1 , , (2)

T latest time at which a

Initialize for all s S a S a A s

( )

1 '( , )

( , ) ( , )

( , )

( , ) ( , )( , ) ( , )( , )

t thetime of of fist occurrence of s a suchthet T

N s a N s a R

s a D s a

Q s a For each s S

2.2 Phương pháp Temporal Difference (TD)

Đây là phương pháp học theo sự khác biệt về thời gian Trong phương pháp (TD) thuật toán có thể xác định ý tưởng chính của phương pháp TD chắc chắn sẽ là Sarsa và Q-learning Thuật toán Sarsa (viết tắt của trạng thái, hành động, khoản tưởng, trạng thái, hành động) là một thuật toán học TD không theo

Trang 26

đường lối Hai thuật toán xem xét chuyển đổi từ một cặp trạng thái- hành động này sang cặp trạng thái- hành động khác và học hành động- hàm giá trị của các cặp trạng thái-hành động Trong khi thuật toán Sarsa sao lưu giá trị Q tương ứng với các hành động được lựa chọn tiếp theo thì Q-learning sao lưu các giá trị Q tương ứng với hành động của giá trị tốt nhất Q tiếp theo Vì các thuật toán cần phải chờ đợi chỉ một bước thời gian đề sao lưu các giá trị Q Vì vậy chúng là những phương pháp học tập trực tuyến Các thuật toán Sarsa và Q-learning được thể hiện trong thuật toán 3 và thuật toán 4 tương ứng

2.2.1 Thuật toán Q-learning

Đây là phương pháp học theo kiểu off-policy Phương pháp off-policy sử dụng một luật chọn hành động để thực hiện các hành động nhưng với mục đích

là để tối ưu hóa một luật chọn hành động khác Hàm Q được xác định bằng phương pháp Q-learning như sau:

Trang 27

Các tham số được sử dụng trong quá trình cập nhật giá trị Q là:

α: hệ số học, nằm trong đoạn [0 1] Hệ số học bằng 0 có nghĩa là giá trị Q không bao giờ được cập nhật Hệ số học có giá trị lớn ví dụ 0.9 nghĩa là việc học xảy ra nhanh

γ: hệ số suy giảm, nằm trong đoạn [0 1]

Max α: giá trị tăng cường lớn nhất có thể đạt được trong trạng thái theo sau trạng thái hiện tại

Giải thích thuật toán trên:

(1) Khởi tạo bảng giá trị Q, Q(s,a)

( 2) Quan sát trạng thái hiện tại s

( 3) Lựa chọn hành động a cho trạng thái dựa vào một trong các chiến lược lựa chọn hành động (ε-soft, ε-greedy hoặc softmax)

(4) Thực hiện hành động và quan sát giá trị r cũng như trạng thái mới s’ (5) Cập nhật giá trị Q cho trạng thái sử dụng giá trị tăng cường được quan sát và giá trị tăng cường lớn nhất có thể cho trạng thái tiếp theo Việc thực hiện được cập nhật dựa theo công thức mô tả ở trên Thiết lập trạng thái đến trạng thái mới và lặp lại quá trình này đến tận khi gặp được trạng thái kết thúc

2.2.2 Thuật toán Sarsa (state, action, reward, state, action)

Các thuật toán Sarsa là một thuật toán on-policy dùng cho Learning Sự khác biệt chính giữa nó và Q-Learning, là phần thưởng lớn nhất cho trạng thái tiếp theo là không nhất thiết phải sử dụng để cập nhật các giá trị

TD-Q

Tên Sarsa thực sự xuất phát từ thực tế là các bản cập nhật được thực hiện bằng cách sử dụng Q (s, a, r, s’, a') Trong đó: s là một tình trạng ban đầu và a là

Định dạng
Số trang	54
Dung lượng	892,36 KB