Mục đích, nhiệm vụ nghiên cứu Luận văn tập trung vào 3 mục tiêu chính sau: Nắm vững các kiến thức về phương pháp học tăng cường, hiểu rõ các ý tưởng, các cơ chế hoạt của thuật toán và ứ
Trang 1TRƯỜNG ĐẠI HỌC VINH
TRẦN QUỐC KIỆT
THUẬT TOÁN HỌC TĂNG CƯỜNG VÀ ỨNG DỤNG TRONG BÀI
TOÁN TÌM ĐƯỜNG ĐI CHO ROBOT
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Trang 2TRƯỜNG ĐẠI HỌC VINH
TRẦN QUỐC KIỆT
THUẬT TOÁN HỌC TĂNG CƯỜNG VÀ ỨNG DỤNG TRONG BÀI
TOÁN TÌM ĐƯỜNG ĐI CHO ROBOT
CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN
MÃ SỐ: 60.48.02.01
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Người hướng dẫn khoa học: TS.Trần Xuân Sang
NGHỆ AN, 3/2017
Trang 3LỜI CẢM ƠN
Trong suốt quá trình học tập cũng như quá trình làm luận văn, em đã nhận được sự quan tâm của Ban giám hiệu trường Đại Học Vinh, Ban Giám Hiệu trường Đại học Kinh Tế Công Nghiệp Long An, sự giúp đỡ của các thầy
cô giáo trong khoa Công Nghệ Thông Tin khoa sau Đại Học trường Đại học Trường Đại học Vinh, khoa Liên kết Trường Đại học Kinh Tế Công Nghiệp Long An Đặc biệt là sự hướng dẫn tận tình của thầy giáo hướng dẫn TS Trần Xuân Sang Với lòng biết ơn sâu sắc cô trưởng khoa CNTT TS Phan Lê Na, thầy phó khoa CNTT TS Hoàng Hữu Việt đã giúp đỡ để em hoàn thành luận văn thạc sỹ khoa học này
Em cũng xin gửi lời cảm ơn tới ban lãnh đạo, các đồng nghiệp nơi em đang công tác đã tạo điều kiện giúp em, cảm ơn các bạn ban cán sự lớp cao học CNTT khóa 23 Long An đã cũng em có khoảng thời gian học tập rất bổ ích Cuối cùng, em xin gửi lời cảm ơn tới gia đình, bạn bè, những người thân
đã luôn động viên và chia sẻ cũng em trong suốt thời gian học tập
Trang 4LỜI CAM ĐOAN
Tôi xin cam đoan luận văn này là do tự bản thân thực hiện và là sản phẩm của riêng tôi Các số liệu và tài liệu trong luận văn là trung thực, các tin thứ cấp sử dụng trong luận văn là có nguồn gốc và được trích dẫn rõ ràng
Tôi hoàn toàn chịu trách nhiệm về tính xác thực và nguyên bản của luận văn
Học viên thực hiện Tác giả Trần Quốc Kiệt
Trang 5Chương 2 CÁC THUẬT TOÁN HỌC TĂNG CƯỜNG 20 2.1 Tổng quan về phương pháp học tăng cường 20
2.2.2 Thuật toán Sarsa (state, action, reward, state, action) 25
Chương 3 THIẾT KẾ HỆ THỐNG THỬ NGHIỆM 30
3.1 Bài toán mô phỏng tìm đường đi ngắn nhất cho robot môi trường 2x3 28
3.1.2 Trạng thái và hành động để đi đến mục tiêu 29
Trang 63.1.3 Thực hiện một vài bước của thuật toán Q-Learning 31
3.2 Bài toán mô phỏng tìm đường đi ngắn nhất cho robot môi trường 5x5 38
3.3 Đánh giá mô phỏng dự trên các thuật toán Q-Learning , Sarsa, DynaQ 41 3.3.1 Mô tả và yêu cầu của bài toán mô phỏng đánh giá 41
Trang 7DANH MỤC CÁC TỪ VIẾT TẮT
Học tăng cường (Reinforcement Learning) RL
Phương pháp quy hoạch động (Dynamic
Trang 8DANH MỤC CÁC HÌNH
DynaQ
Hình 3.17
Sơ đồ đường đi thuật toán Q-learning Hình 3.19
Sơ đồ so sánh số phương án tối ưu của thuật toán Hình 3.22
Sơ đồ so sánh hệ số học và giá trị chiến lược Hình 3.23 Mối quan hệ giữa số đoạn lặp và hệ số học Hình 3.24
Trang 9MỞ ĐẦU
1 Lý do chọn đề tài
Trước đây, người ta giải quyết bài toán tìm đường bằng cách sử dụng các thuật toán tìm đường cổ điển, ví dụ như thuật toán Dijkstra, thuật toán Bellman-Ford, thuật toán Johnson Tuy nhiên các thuật toán tìm đường nói trên có một số hạn chế như là đòi hỏi môi trường phải được xác định trước và không thay đổi trong quá trình tìm đường Như vậy các thuật toán đó không xử lý được các bài toán tìm đường đi thực tế vì môi trường đường đi trong thực tế thường bị thay đổi Với sự phát triển của trí tuệ nhân tạo, ngày nay các công nghệ với sự trợ giúp của máy tính, máy tính có thể “học”, hay nói cách khác là tự tìm ra được quy luật hành động nói chung hay tự tìm đường nói riêng thông qua các kinh nghiệm thu được từ những hành động được thực hiện trước đó
Từ các thực tế đó, chúng tôi hướng tới việc nghiên cứu thuật toán học tăng cường Q-learning để áp dụng trong việc lập kế hoạch đường đi cho các robot tự
hành
2 Lịch sử vấn đề
Các phương pháp học máy đã được đề xuất để chỉ khả năng các hệ thống thông minh có khả năng tự tích lũy thông tin trong quá trình hoạt động, phân tích các thông tin thu được từ đó tự nâng cao khả năng của hệ thống, đây chính là mục đích quan trọng trong lý thuyết quyết định cũng như trong các bài toán tự động hoá và điều khiển tối ưu
3 Đối tượng và phạm vi nghiên cứu
3.1 Đối tượng nghiên cứu
Nghiên cứu lý thuyết:
Trang 10Nghiên cứu các tài liệu về thuật toán học tăng cường đã công bố ở trong và ngoài nước
Nghiên cứu tài liệu về trích chọn đặc trưng của các thuật toán học tăng cường
Nghiên cứu các thuật toán học tăng cường áp dụng trong bài toán tìm đường đi ngắn nhất
Nghiên cứu thực nghiệm:
Nghiên cứu cách xây mô hình đường đi ngắn nhất cho robot
Cài đặt cho bài toán tìm đường đi ngắn nhất và cài đặt đánh giá thuật toán học tăng cường
3.2 Phạm vi nghiên cứu
Bài toán tìm đường đi ngắn nhất có thể được thực hiện bằng nhiều thuật toán khác nhau như: thuật toán Sarsa, Dyna-Q, DynaH …và có thể được giải quyết với thời gian hội tụ khá nhanh
Trong phạm vi Luận văn này, tôi tập trung vào các phương pháp phương pháp Monte Carlo (MC) và phương pháp Temporal Difference (TD) để giải quyết bài toán tìm đường đi ngắn nhất cho Robot
4 Mục đích, nhiệm vụ nghiên cứu
Luận văn tập trung vào 3 mục tiêu chính sau:
Nắm vững các kiến thức về phương pháp học tăng cường, hiểu rõ các ý tưởng, các cơ chế hoạt của thuật toán và ứng dụng trong bài toán cụ thể
Nghiên cứu và cài đặt bài toán tìm đường đi ngắn nhất bằng các thuật toán học tăng cường (thuật toán Q-Learning)
Trang 11Đánh giá hiệu quả của các thuật toán qua mô phỏng
5 Phương pháp nghiên cứu
Nghiên cứu tổng quan về bài toán tìm đường đi ngắn nhất bằng thuật toán học tăng cường đã được công bố
Nghiên cứu về bài toán quyết định Markov về sự hội tụ áp dụng vào học tăng cường
Nghiên cứu các thuật toán học tăng cường với hai phương pháp là học dựa trên mô hình và học không có mô hình
Lập trình các thuật toán trên máy tính và đánh giá hiệu quả của các thuật toán
6 Đóng góp của luận văn
Trong Luận văn chỉ ra các thuật toán Dyna-Q là có hiệu quả tốt nhất trong
số các thuật toán Q-learning, Sarsa, Q (k), Sarsa (k) Tuy nhiên luận văn chỉ nhấn mạnh trên các mô phỏng trong phạm vi mê cung
7 Cấu trúc của luận văn
Luận văn gồm 3 phần:
Chương 1 Tổng quan
Chương 2 Các thuật toán học tăng cường
Chương 3 Thiết kế hệ thống thử nghiệm
Kết luận
Trang 12Chương 1 TỔNG QUAN 1.1 Đặt vấn đề
Xác định đường đi hoặc xác định quỹ đạo đường đi của robot di động là đề cập đến việc xác định một con đường không có chướng ngại vật từ vị trí của nó đến một vị trí mục tiêu thông qua một môi trường nhiều vật cản mà không cần
sự can thiệp của con người Hiện nay các phương pháp học máy đã cho phép robot có thể tự tìm đường và di chuyển dựa vào việc cập nhật trạng thái hiện thời của môi trường mà nó đang hoạt động
1.2 Phát biểu bài toán cây quyết định markov
Bài toán quyết định Markov là bài toán học từ các tác động để đạt được mục đích Người học và người ra quyết định được gọi là tác tử Tất cả những gì
mà chúng tương tác với, bao gồm mọi thứ bên ngoài tác tử được gọi là môi trường Các tác động thực hiện một cách liên tục, tác tử lựa chọn các hành động, môi trường đáp ứng lại các hành động đó và chuyển từ trạng thái hiện thời sang trạng thái mới Môi trường cũng đem lại các mục tiêu, các giá trị bằng số mà tác
tử cố gắng cực đại hoá qua thời gian Một đặc tả hoàn thiện về môi trường được coi là một “nhiệm vụ”, một thực thể của bài toán quyết định Markov Tóm lại, bài toán quyết định Markov liên quan đến lớp bài toán trong đó một tác tử rút ra kết luận trong khi phân tích một chuỗi các hành động của nó cùng với tín hiệu
vô hướng được đưa ra bởi môi trường
Học tăng cường là phương pháp học thông qua tương tác với môi trường
Mô hình của học tăng cường gồm có 3 thành phần chính: tác tử (agent), môi trường (environment) và giá trị phản hồi (reward) Quá trình học là một quá trình lặp đi lặp lại (iteration) các hành động (action) Sau khi thực hiện mỗi hành động thì agent nhảy từ vị trí (hay trạng thái - state) này sang vị trí (trạng thái) khác, và đồng thời nhận được giá trị phản hồi (reward) từ hành động cũ Dựa vào các giá trị phản hồi nhận được agent có thể điều chỉnh luật chọn hành động
Trang 13(policy) của mình trong các bước tiếp theo Việc điều chỉnh và tối ưu hóa luật chọn hành động dựa vào các giá trị phản hồi chính là quá trình học tăng cường
Rõ ràng là quy luật chọn lựa hành động của agent thu được sau quá trình học càng gần tối ưu nếu quá trình học càng kéo dài và số lượng các tình huống mà agent gặp phải là càng nhiều
Hình 1.1: Sơ đồ học tăng cường
Với mô hình học tăng cường như vậy thì vấn đề cần giải quyết là các thông tin phản hồi (reward) được xử lý như thế nào Sau mỗi hành động thì tác tử nhận được một giá trị phản hồi và sau một quá trình học lâu dài thì số lượng các thông tin phản hồi này là rất lớn mà tại mỗi thời điểm không thể quan tâm đến tất cả mọi giá trị này được Để giải quyết vấn đề này thì mô hình học tăng cường được đưa về mô hình Markov (MDP - Markov Decision Process), là sự mở rộng của chuỗi Markov Chuỗi Markov là một quá trình ngẫu nhiên mà giá trị hàm xác suất (probability distribution function) của mỗi bước tiếp theo chỉ phụ thuộc vào các thông số của bước trước đó, điều này cho phép ta chỉ quan tâm tới giá trị phản hồi ngay trước đó tại mỗi vị trí Lý thuyết học tăng cường hiện nay dựa vào
mô hình Markov, do đó các bài toán không thể đưa về được mô hình Markov thì không thể giải quyết được bằng phương pháp học tăng cường Mô hình Markov (MDP) được định nghĩa là tập hợp (tuple) <S, A, T, ρ>: [1]
S: tập các vị trí (hay trạng thái- state)
A: tập các hành động (action); R: là tập điểm thưởng
Action (a t ) Agent
Environment
State (st)
Reward (rt)
srt+1t+1
Trang 14T: SxA -> P(S): là hàm xác suất (probability distribution function) cho từng cặp trạng thái - hành động Hàm này gán giá trị xác suất cho từng cặp trạng thái - hành động
ρ: SxA -> R: là payoff function, gán giá trị phản hồi cho từng hành động tại vị trí xác định Mô hình Markov có thể là xác định (với từng cặp trạng thái - hành động xác định thì cho ra vị trí kế tiếp giống nhau ở mọi thời điểm) hoặc không xác định Với mô hình Markov xác suất chuyển đến vị trí s’ từ vị trí s và hành động a là:
1 2
R r r r
Trong đó T là bước cuối cùng trước khi đến đích [1]
Thực nghiệm cho thấy nếu ta giảm dần mức độ quan trọng của các bước ở các thời điểm xa với thời điểm hiện tại thì quá trình học sẽ hội tụ nhanh hơn Điều đó có nghĩa là ta cần thêm vào hệ số khấu hao γ Giá trị phản hồi ở thời điểm cách hiện tại bao nhiêu bước thời gian thì sẽ được nhân với giá trị khấu hao
γ bấy nhiêu lần Như vậy giá trị “return” sẽ được tính như sau:
Trang 15Mọi thuật toán của học tăng cường đều dựa trên hàm giá trị Hàm giá trị cung cấp giá trị dự đoán mức độ “tốt” của tác tử ở vị trí hiện tại trong quá trình tìm đến đích Hàm này chính là giá trị “return” ước tính tại từng vị trí (hay trạng thái - hành động ) ứng với một luật chọn hành động (policy) xác định nào đó Ta
có thể xác định hàm giá trị theo vị trí hay theo cặp giá trị trạng thái - hành động
Hàm giá trị theo vị trí (state - value function) V ứng với luật chọn hành động π tại vị trí s được xác định như sau:
1 0
Trang 16mỗi vị trí s Các loại thuật toán học tăng cường thông thường gồm có lập trình động (dynamic programming), Monte-Carlo và phương pháp TD (temporal difference) Tuy nhiên các phương pháp lập trình động và Monte-Carlo không hiệu quả do đòi hỏi bộ nhớ quá lớn, hoặc mô hình phải xác định hay khó hội tụ nên ít khi cho ra kết quả tối ưu Phương pháp TD là sự kết hợp của những phương pháp kể trên và cho phép giải quyết được nhiều bài toán thực tế bởi vì phương pháp này không đòi hỏi môi trường xác định và có khả năng hội tụ cao Một biến thể của phương pháp TD được gọi là Q-learning, là phương pháp học kiểu TD theo hướng off-policy, rất hiệu quả trong việc giải quyết các bài toán tìm đường [3]
Ví dụ 1: Trò chơi Tic-Tac-Toe Hai người chơi thực hiện chơi trên một bảng kích thước 4x4 Một người ghi kí hiệu X và một người ghi kí hiệu O, đến tận khi có người thắng nhờ ghi 4 dấu trên cùng một hàng dọc hoặc hàng ngang hoặc hàng chéo, như người ghi dấu X trong hình vẽ:
Hình 1.2: Mô phỏng trò chơi Tic-Tac-Toe
Nếu bảng bị lấp đầy mà không người chơi nào ghi được 4 dấu trong cùng một hàng thì trận đấu sẽ hoà Bài toán tic-tac-toe được tiếp cận sử dụng RL như sau:
Trạng thái: Bảng 4x4
Hành động: phép di chuyển tiếp theo
Mục tiêu: 1 nếu thắng, -1 nếu thua, 0 nếu hoà
Bài toán: tìm π: S→A sao cho R lớn nhất
Trang 17Ví dụ 2: Robot di động
Trạng thái: vị trí của Robot và của người
Hành động: sự di chuyển
Mục tiêu: số các bước đối mặt thành công
Bài toán: tìm π: S→A sao cho R lớn nhất
Để hiểu rõ ràng về các bài toán trong thực tế, ở đây chúng ta xét ví dụ một cuộc đối thoại về mối quan hệ giữa tác tử và môi trường như sau:
Môi trường: Bạn đang ở trạng thái 65 Bạn có 4 hành động để lựa chọn
a) Chiến lược:
Trang 18Chiến lược định nghĩa cách thức tác tử học từ hành động tại thời điểm đưa
ra Chiến lược là một ánh xạ từ tập các trạng thái của môi trường đến tập các hành động được thực hiện khi môi trường ở trong các trạng thái đó
b) Hàm phản hồi:
Hàm phản hồi dùng để định nghĩa mục tiêu trong bài toán quyết định Markov Nó ánh xạ mỗi trạng thái quan sát được (hoặc một cặp trạng thái-hành động) của môi trường với một giá trị phản hồi thực chất về trạng thái đó
Trong các bài toán số bước hữu hạn với những bài toán này ta có một số hữu hạn các bước trong tương lai Sẽ tồn tại một trạng thái kết thúc và một chuỗi các hành động giữa trạng thái đầu tiên và trạng thái kết thúc được gọi là một giai đoạn Ta có:
1 1
R r r r [4]
Trong đó K là số các bước trước trạng thái kết thúc
Trong các bài toán số bước vô hạn Với những bài toán này ta có chuỗi các hành động là vô hạn Một hệ số suy giảm γ, 0≤γ≤1 được đưa ra và hàm phản hồi được biểu diễn dưới dạng tổng của các giá trị mục tiêu giảm dần:
Trang 19t t
a S
Có hai phương pháp thường được sử dụng để giải các bài toán quyết định
đó là tìm kiếm trong không gian chiến lược và tìm kiếm trong không gian hàm giá trị hay còn gọi là “phép lặp chiến lược” và “phép lặp giá trị” Hai phương pháp này chính là các giải thuật học tăng cường đặc trưng Ngoài ra còn xuất hiện một phương pháp lai giữa hai phương pháp trên: Actor-Critic learning
b) Phép lặp chiến lược
Ý tưởng là ở chỗ, bắt đầu từ một chiến lược bất kỳ π và cải thiện nó sử dụng V để có một chiến lược tốt hơn π’ Sau đó có thể tính V' và cải thiện nó với một chiến lược tốt hơn nữa π”,…Kết quả của tiến trình lặp này, có thể đạt được một chuỗi các bước cải thiện chiến lược và các hàm giá trị
Thuật toán lặp chiến lược:
(1) Bắt đầu với một chiến lược bất kỳ π
(2) Lặp đánh giá chiến lược π
Cải tiến chiến lược tại mỗi trạng thái
Đến tận khi chiến lược không có khả năng thay đổi
c) Phép lặp giá trị
Trang 20Trong phương pháp này, chúng ta không cố gắng quyết định chiến lược một cách rõ ràng, mà sẽ quyết định hành động có giá trị tối ưu cho mọi trạng thái Thuật toán lặp giá trị sinh ra từ dạng đệ qui của hàm giá trị trạng thái tối ưu Bellman Phương trình chi phối thuật toán lặp giá trị như sau:
1.2.4 Phân loại thuật toán học tăng cường
Các thuật toán học tăng cường được chia thành hai loại chính đó là: học dựa trên mô hình (model-based) và học không có mô hình hay nói cách khác học
tự do (model-free) Đại điện cho kiểu học dựa trên mô hình phải kể đến phương pháp quy hoạch động (Dynamic Programming DP), còn đại diện cho kiểu học không có mô hình là phương pháp Monte Carlo và phương pháp TD (Temporal Difference)
a) Học dựa trên mô hình
Phương pháp này thực hiện học theo mô hình và sử dụng nó để quyết định chính sách tối ưu Tác tử ước lượng mô hình từ các quan sát về cả khả năng chuyển đổi trạng thái và hàm tăng cường, cuối cùng sẽ sử dụng mô hình ước lượng này như là mô hình thực tế để tìm ra chiến lược tối ưu Một cách cụ thể, tác tử tiến hành lập kế hoạch và biên dịch kết quả sang một tập các phản hồi nhanh hoặc các luật tình huống – phản hồi, sau đó sẽ được sử dụng trong quyết định thời gian thực Cách tiếp cận này tuy nhiên bị giới hạn vào sự phục thuộc của nó vào một mô hình hoàn thiện về môi trường
b) Học không có mô hình
Trang 21Phương pháp này tìm thấy chính sách tối ưu mà không phải học theo mô hình Tác tử học các giá trị hành động mà không có mô hình về môi trường được
mô tả bởi '
a ss
a ss
R Trong phương pháp này tác tử tương tác trực tiếp với môi trường và biên dịch thông tin nó thu thập được thành một cấu trúc phản hồi mà không có học từ mô hình Trong phương pháp này, các bước chuyển đổi trạng thái và các giá trị phản hồi tác tử quan sát thay thế cho mô hình môi trường
1.3 Tổng quan về tình hình nghiên cứu
a) Tình hình nghiên cứu trong nước
Thuật toán học tăng cường được nghiên cứu ở Việt Nam từ những năm
2000 và đã cũng có công bố cụ thể “Tìm đường đi ngắn nhất bằng phương pháp q-learning” đăng trên tạp chí chí Khoa học Công nghệ & Thực phẩm xuất bản
2014
b) Tình hình nghiên cứu ngoài nước
Ở ngoài nước có những công trình nghiên cứu về các lĩnh vực học tăng cường nổi bật là công trình luận án tiến sĩ “Q-Learning for Robot Control”, luận
án tiến sĩ của tác giả Coulom R năm 2000 Đã đưa những phương pháp học tăng và áp dụng hiệu quả vào thực tế
Trang 22Chương 2 CÁC THUẬT TOÁN HỌC TĂNG CƯỜNG
2.1 Tổng quan về phương pháp học tăng cường
2.1.1 Phương pháp Monte Carlo (MC)
Các phương pháp Monte Carlo thích hợp cho việc học từ các kinh nghiệm trong đó không yêu cầu nhận thức trước đó về tính động của môi trường Chúng giải quyết bài toán quyết định dựa trên việc tính trung bình các giá trị phản hồi mẫu
Phương pháp MC kiểm tra toàn bộ ước lượng Vπ(s) bằng trung bình các phản hồi sau tất cả các bước kiểm tra đối với s Qπ(s,a) được ước lượng là trung bình các phản hồi sau tất cả các bước kiểm tra đối với cặp (s,a) Phương pháp
MC kiểm tra đầu tiên tính trung bình chỉ giá trị phản hồi sau bước kiểm tra đầu tiên trong phép ước lượng Vπ(s) và Qπ(s,a) Cả hai phương pháp này đều hội tụ đến Vπ(s) hoặc Qπ(s,a) như là số các bước đến s hoặc cặp (s,a)
Thuật toán sử dụng chiến lược bằng phương pháp MC lặp vô hạn:
(1) Tạo một đoạn mẫu sử dụng chiến lược được ước lượng (2) s0, a0,s1, a1, r1, …,st, rt
(1) (2) Với mỗi trạng thái s xuất hiện trong đoạn
total total CurrentFirstOccurrence
( ) ( ) R total s
Nếu có mô hình môi trường thì các giá trị trạng thái đủ khả năng để quyết định chiến lược Chúng ta không thể sử dụng các ước lượng giá trị trạng thái để quyết định chiến lược mà không có mô hình về môi trường
Trang 23Trong khi đó, chúng ta có thể sử dụng các ước lượng giá trị hành động trong việc quyết định chiến lược mà không cần yêu cầu mô hình môi trường Với một chiến lược π, chúng ta sẽ chỉ quan sát các giá trị phản hồi đối với chỉ một hành động tại mỗi trạng thái
Như vậy, ước lượng Monte Carlo của các trạng thái khác sẽ không cải tiến theo kinh nghiệm Đây là một vấn đề quan trọng vì mục đích của các giá trị hành động học là giúp cho việc lựa chọn giữa các giá trị có hiệu lực trong mỗi trạng thái Kết quả là chúng ta cần ước lượng giá trị của tất cả các hành động từ mỗi trạng thái Để giải quyết vấn đề này, chúng ta có thể bắt đầu mỗi đoạn tại một cặp hành động - trạng thái, mọi cặp như vậy sẽ có khả năng lựa chọn khác 0 khi bắt đầu Giải pháp khác là sử dụng chiến lược ngẫu nhiên với khả năng lựa chọn tất cả các hành động khác 0 Điều này đảm bảo rằng tất cả các cặp hành động – trạng thái sẽ được kiểm tra một số lần vô hạn trong giới hạn là có vô hạn các đoạn
Chiến lược tối ưu sử dụng phương pháp MC Bắt đầu với một chiến lược π ngẫu nhiên và Q(s,a) ngẫu nhiên lặp vô hạn:
(a) Tạo một đoạn mẫu sử dụng π với khả năng lựa chọn tất cả các hành động là khác 0, độc lập với π tại thời điểm bắt đầu s0, a0,s1, a1, r1, …,st, rt
(b) Với mỗi cặp s, a xuất hiện trong đoạn
Trang 24hành động Khả năng thực hiện có thể được chuyển dần chiến lược hướng đến chiến lược tối ưu Ví dụ, có thể áp dụng phương pháp lựa chọn hành động ε-greeady và softmax để thực hiện khả năng trên
2.1.2 Phương pháp MC on-policy
On-policy: hành động tiếp theo được chọn dựa vào policy
Trong phương pháp này, chiến lược điều khiển tác tử sẽ được cải thiện Một chiến lược soft sử dụng phương pháp lựa chọn hành động ε-greeady là một chiến lược ngẫu nhiên
Chúng ta có thể thay đổi thuật toán cho chiến lược tối ưu với giả sử rằng phép lựa chọn tất cả các hành động độc lập với π tại thời điểm bắt đầu sử dụng các chiến lược soft Các chiến lược soft đảm bảo phép lựa chọn tất cả các hành động tại tất cả các bước
Thuật toán 1: Phương pháp MC on-policy
Trang 25Trong phương pháp này, chiến lược được sử dụng để tạo hành vi khác so với chiến lược được ước lượng và cải tiến Chiến lược được sử dụng để tạo hành
vi được gọi là chiến lược hành vi và chiến lược khác được gọi là chiến lược ước lượng Một đặc điểm quan trọng của chiến lược hành vi đó là chiến lược cần phải có khả năng lựa chọn tất cả các hành động được lựa chọn bởi chiến lược ước lượng là khác 0
Thuật toán 2: Phương pháp MC off-policy
0 , 0 , , 1 1 , , , 2 1 , 1 , , (2)
T latest time at which a
Initialize for all s S a S a A s
( )
1 '( , )
( , ) ( , )
( , )
( , ) ( , )( , ) ( , )( , )
t thetime of of fist occurrence of s a suchthet T
N s a N s a R
s a D s a
Q s a For each s S
2.2 Phương pháp Temporal Difference (TD)
Đây là phương pháp học theo sự khác biệt về thời gian Trong phương pháp (TD) thuật toán có thể xác định ý tưởng chính của phương pháp TD chắc chắn sẽ là Sarsa và Q-learning Thuật toán Sarsa (viết tắt của trạng thái, hành động, khoản tưởng, trạng thái, hành động) là một thuật toán học TD không theo
Trang 26đường lối Hai thuật toán xem xét chuyển đổi từ một cặp trạng thái- hành động này sang cặp trạng thái- hành động khác và học hành động- hàm giá trị của các cặp trạng thái-hành động Trong khi thuật toán Sarsa sao lưu giá trị Q tương ứng với các hành động được lựa chọn tiếp theo thì Q-learning sao lưu các giá trị Q tương ứng với hành động của giá trị tốt nhất Q tiếp theo Vì các thuật toán cần phải chờ đợi chỉ một bước thời gian đề sao lưu các giá trị Q Vì vậy chúng là những phương pháp học tập trực tuyến Các thuật toán Sarsa và Q-learning được thể hiện trong thuật toán 3 và thuật toán 4 tương ứng
2.2.1 Thuật toán Q-learning
Đây là phương pháp học theo kiểu off-policy Phương pháp off-policy sử dụng một luật chọn hành động để thực hiện các hành động nhưng với mục đích
là để tối ưu hóa một luật chọn hành động khác Hàm Q được xác định bằng phương pháp Q-learning như sau:
Trang 27Các tham số được sử dụng trong quá trình cập nhật giá trị Q là:
α: hệ số học, nằm trong đoạn [0 1] Hệ số học bằng 0 có nghĩa là giá trị Q không bao giờ được cập nhật Hệ số học có giá trị lớn ví dụ 0.9 nghĩa là việc học xảy ra nhanh
γ: hệ số suy giảm, nằm trong đoạn [0 1]
Max α: giá trị tăng cường lớn nhất có thể đạt được trong trạng thái theo sau trạng thái hiện tại
Giải thích thuật toán trên:
(1) Khởi tạo bảng giá trị Q, Q(s,a)
( 2) Quan sát trạng thái hiện tại s
( 3) Lựa chọn hành động a cho trạng thái dựa vào một trong các chiến lược lựa chọn hành động (ε-soft, ε-greedy hoặc softmax)
(4) Thực hiện hành động và quan sát giá trị r cũng như trạng thái mới s’ (5) Cập nhật giá trị Q cho trạng thái sử dụng giá trị tăng cường được quan sát và giá trị tăng cường lớn nhất có thể cho trạng thái tiếp theo Việc thực hiện được cập nhật dựa theo công thức mô tả ở trên Thiết lập trạng thái đến trạng thái mới và lặp lại quá trình này đến tận khi gặp được trạng thái kết thúc
2.2.2 Thuật toán Sarsa (state, action, reward, state, action)
Các thuật toán Sarsa là một thuật toán on-policy dùng cho Learning Sự khác biệt chính giữa nó và Q-Learning, là phần thưởng lớn nhất cho trạng thái tiếp theo là không nhất thiết phải sử dụng để cập nhật các giá trị
TD-Q
Tên Sarsa thực sự xuất phát từ thực tế là các bản cập nhật được thực hiện bằng cách sử dụng Q (s, a, r, s’, a') Trong đó: s là một tình trạng ban đầu và a là