Nghiên cứu bài toán tránh vật cản cho rô bốt tự hành trên cơ sở ứng dụng học sâu tăng cường DQN

Bài viết trình bày việc giải quyết bài toán thông qua dự báo hành vi và kỹ thuật học sâu tăng cường QDN (Deep Q learning). Robot tự hành trong nghiên cứu là loại robot có 2 bánh xe chủ động điều khiển độc lập. Các kết quả thu được chứng tỏ tính hiệu quả của hướng tiếp cận, robot có thể dự đoán hành vi của vật cản dựa trên bộ nhớ hành vi trước đó mà không cần mô hình hóa robot.

Trang 1

NGHIÊN CỨU BÀI TOÁN TRÁNH VẬT CẢN CHO RÔ BỐT TỰ HÀNH TRÊN CƠ SỞ ỨNG DỤNG

HỌC SÂU TĂNG CƯỜNG DQN

Đỗ Nam Thắng1*

, Phạm Trung Dũng2, Nguyễn Quang Hùng1

Tóm tắt: Bài toán tránh vật cản động cho robot tự hành trên cơ sở ứng dụng các

công cụ trí tuệ nhân tạo là một hướng nghiên cứu thuộc lĩnh vực điều khiển robot thông minh Trong bài báo này, chúng tôi giải quyết bài toán thông qua dự báo hành vi và kỹ thuật học sâu tăng cường QDN (Deep Q learning) Robot tự hành trong nghiên cứu là loại robot có 2 bánh xe chủ động điều khiển độc lập Các kết quả thu được chứng tỏ tính hiệu quả của hướng tiếp cận, robot có thể dự đoán hành

vi của vật cản dựa trên bộ nhớ hành vi trước đó mà không cần mô hình hóa robot

Từ khóa: Robot tự hành; Tránh va chạm chủ động; Thuật toán DQN; Turtlebot3

1 GIỚI THIỆU

Các phương pháp tránh chướng ngại vật cục bộ luôn hoạt động bằng cách tính toán hướng cho robot đi vào nhưng không tính đến động lực học của robot Ví dụ: các cách tiếp cận Trường thế năng [1, 8] sử dụng tổng các vectơ đặc trưng của lực hút và lực đẩy để tính toán mục tiêu robot mong muốn Việc kiểm soát tốc độ được thực hiện bằng cách chọn vận tốc tỷ lệ với độ lớn của vectơ thế năng Phương pháp Biểu đồ trường Vector [2] cải thiện phương pháp này bằng cách tính toán biểu đồ cực một chiều, sau đó được xử lý để phát hiện các khu vực mở để robot di chuyển qua Vận tốc của robot, được chọn sau khi đã chọn hướng, tỷ lệ thuận với khoảng cách đến chướng ngại vật phía trước Mặc dù phương pháp này tạo ra sự di chuyển mượt mà hơn và có thể xử lý cả các khe hẹp và rộng nhưng giống như phương pháp Trường thế năng, không tính đến thực tế là khi robot quay chúng thường di chuyển dọc theo các cung, thay vì theo đường thẳng Trong môi trường lộn xộn, động lực học robot có thể rất quan trọng

Trong khi các phương pháp tính đến động lực học của robot đã được nghiên cứu trong bối cảnh lập kế hoạch lộ trình ngoại tuyến [4, 9], các phương pháp này thường quá tốn kém về mặt tính toán để tránh chướng ngại vật cục bộ nhanh

Tuy nhiên, gần đây, một số phương pháp tránh chướng ngại vật cục bộ đã kết hợp động lực học của xe, chọn các lệnh lái thay vì hướng di chuyển Phương pháp Trường góc lái [5]

sử dụng các đường cong tiếp tuyến với các chướng ngại vật để hạn chế một không gian liên tục (trong trường hợp này đó là không gian một chiều của các góc lái) Độ cong và khoảng cách vòng cung liên quan được sử dụng để cấm di chuyển trên phạm vi góc lái Phương pháp tính toán các ràng buộc cho một số ngưỡng khoảng cách và cố gắng di chuyển dọc theo chiều tự do nhất Một phương pháp tương tự cho điều hướng trong nhà tốc độ cao hoạt động trong không gian vận tốc đã được phát triển sớm hơn một chút nhưng độc lập [3] Phương pháp này xem xét một tập hợp các vòng cung riêng biệt, bị hạn chế bởi động lực học của xe

và chọn một vòng quay gần nhất theo hướng mục tiêu, trong khi đảm bảo rằng robot không gặp chướng ngại vật trong vài giây di chuyển tiếp theo Phương pháp này đầu tiên sử dụng cách tiếp cận hai bước để chọn độ cong và vận tốc; Sau đó, áp dụng phương pháp một bước

để đồng thời chọn độ cong và vận tốc [6] Một cách tiếp cận tương tự đã được phát triển cho điều hướng ngoài trời [7] Ở đây, động lực học của xe được xem xét một cách đầy đủ, do đó, đường dẫn không nhất thiết phải là một vòng cung tròn, một phép đo khả năng di chuyển được tính cho mỗi đường và đường có giá trị tốt nhất được chọn Cả hai phương pháp này đều có một vấn đề là khi chỉ phân tích một tập hợp các cung tròn rời rạc, các đường dẫn tốt

có thể rơi vào các vết nứt và không được xem xét

Trang 2

Phương pháp vận tốc cong (CVM - Curvature-Velocity Method) để tránh chướng ngại

vật cục bộ coi vấn đề trên như một bài toán tối ưu hóa bị hạn chế trong không gian vận tốc

của robot [10] Ưu điểm của phương pháp nghiên cứu này là khả năng kiểm soát đồng thời

tốc độ và hướng mục tiêu của robot, dễ dàng kết hợp các ràng buộc từ cả môi trường và

động lực học của robot và khả năng xử lý sự đánh đổi giữa tốc độ, an toàn và vô hướng

CVM đạt được hiệu suất thời gian thực bằng cách xấp xỉ khoảng cách robot có thể di

chuyển dọc theo một độ cong nhất định trước khi gặp chướng ngại vật Phép tính gần đúng

là một hàm không đổi, được xác định bởi các đường cong tiếp tuyến với các chướng ngại

vật Các hạn chế vận tốc bổ sung được thêm vào dựa trên các giới hạn vật lý của robot và

mong muốn tránh xa chướng ngại vật, hoặc ít nhất là di chuyển chậm khi vượt qua các

chướng ngại vật gần đó

Trong những năm gần đây, thuật toán DQN (Deep Q Learning) đã được phát triển và

áp dụng vào nhiều lĩnh vực khác nhau, trong đó có bài toán dẫn hướng cho robot Trong

nghiên cứu này, chúng tôi ứng dụng thuật toán DQN để điều khiển mô hình robot tự hành

tránh vật cản dạng bánh xe, với hai bánh chủ động điều khiển độc lập Bài báo được trình

bày theo thứ tự sau: Phần 1 giới thiệu các nghiên cứu trước đó; Phần 2 trình bày thuật toán

DQN trong bài toán tránh vật cản; Phần 3 trình bày mô phỏng và đánh giá hiệu quả thuật

toán; Cuối cùng, kết luận được trình bày trong phần 4

2 THUẬT TOÁN DQN TRONG BÀI TOÁN TRÁNH VẬT CẢN

2.1 Q – Learning

Để robot biết chọn hành động nào để đạt phần thưởng lớn nhất, người ta sử dụng một

giá trị Q được tính như sau: Q(s, a) = r (s, a) + γmax Q(s’, a), trong đó: Q(s, a) là Q khi

thực hiện hành động a ở trạng thái s; r(s, a) là phần thưởng nhận được; s’ là trạng thái kế

tiếp; γ là hệ số khấu hao, đảm bảo càng xa đích Q càng nhỏ Với công thức này, chúng ta

có thể tạo ra một ma trận trạng thái – hành động như một bảng tra cứu Từ đó, với mỗi

trạng thái của robot chỉ cần tìm hành động nào có giá trị Q lớn nhất là xong Tuy nhiên, học

tăng cường là một quá trình ngẫu nhiên nên giá trị Q ở thời điểm trước và sau khi thực hiện

hành động sẽ khác nhau Khác biệt này gọi là sự khác biệt tạm thời:

TD(a, s) = R(s, a) + γmax Q(s’, a’) + (s, a) (1)

Như vậy, ma trận Q(s, a) cần phải cập nhật trọng số dựa trên TD:

(s, a) = (s, a) + αT (a, s) (2)

α là hệ số học Qua các lần robot thực hiện hành động, Q(s, a) sẽ dần hội tụ Quá trình

này chính là Q-Learning

2.2 Thuật toán huấn luyện mạng DQN

2.2.1 Kiến trúc mô hình

Có một số cách để tham số hóa Q sử dụng mạng nơron Vì Q ánh xạ các cặp lịch

sử-hành động tới các giá trị ước lượng của giá trị Q (Q-value), dữ liệu lịch sử và sử-hành động

đã được sử dụng làm đầu vào cho mạng nơron trong một số phương pháp cũ Hạn chế

chính của loại kiến trúc này là cần chạy riêng dữ liệu vào mạng để tính giá trị Q của mỗi

hành động riêng lẻ, do vậy, chi phí tính toán tăng tuyến tính với số lượng hành động Thay

vào đó, ta sử dụng kiến trúc tại đó có một nút đầu ra riêng biệt cho mỗi hành động, và chỉ

sử dụng biểu diễn trạng thái làm đầu vào cho mạng Các đầu ra tương ứng với các giá trị Q

dự đoán của các hành động riêng lẻ trong một trạng thái Ưu điểm của loại kiến trúc này là

khả năng tính toán giá trị Q cho tất cả các hành động có thể xảy ra trong một trạng thái cụ

thể chỉ với một lần chạy dữ liệu duy nhất qua mạng

Trang 3

Hình 1 Mô hình kiến trúc học sâu

Mô hình mạng nơ ron học sâu được đề xuất trong nghiên cứu này bao gồm 4 lớp: lớp đầu vào, hai lớp ẩn và lớp đầu ra Lớp ẩn đầu tiên bao gồm 64 nơ-ron được kiến trúc kết nối đầy đủ, có 28 đầu vào được lấy từ Bộ cảm biến khoảng cách Laser, do đó, có 1856 thông số được đào tạo Lớp ẩn thứ hai cũng có 64 nơ-ron với 64 đầu vào từ lớp ẩn đầu tiên nên có 4160 tham số được huấn luyện

2.2.2 Thuật toán DQN

, robot pose, safety constraints

output: Q(s, a; θ), states s є S, actions a є A, weight θ

begin

Initialize replay memory D to capacity N

Initialize Q(s, a; θ) with random weights θ Initialize Q(s, a’; θ’), with random weights θ’ = θ

for episode = 1, M do

Randomly set the robots pose in the scenario

Observe initial states of robots s

for t = 1, T do:

Select an action a t

with probability select a random action a t

otherwise select a t argmaxaQ s a( , ; )t  Execute action a , observe state t s t1, compute reward Store transition (s a R s t, ,t t, t1) in replay memory D

Sample random minibatch of transition ( ) from D

Calculate the predicted value Q( ) Calculate target value for each minibatch transition

if is terminal state the = otherwise max ( , ; )

j

y R   Q s a    Train neural networks using (y j Q s a( ,j j; )) 2

end for

Robot chọn và thực hiện các hành động theo chính sách ε-tham lam (ε-greedy) dựa trên

Q Để robot di động có thể hoạt động tốt trong thời gian dài, nó cần phải tính đến không chỉ những phần thưởng trước mắt mà còn cả những giải thưởng mà nó sẽ nhận được trong Lớp 1 Lớp 2 Lớp L -1 Lớp L

Trang 4

tương lai Ngoài ra, vì môi trường là ngẫu nhiên, robot không bao giờ có thể chắc chắn, nó

sẽ nhận được phần thưởng tương tự vào lần tiếp theo khi thực hiện các hành động tương

tự Robot càng di chuyển trong tương lai, nó càng có thể phân kỳ Vì lý do đó, trong

nghiên cứu này, chúng tôi sử dụng phần thưởng giảm giá trong tương lai Lợi nhuận của

hệ số suy giảm trong tương lai tại thời điểm t được xác định như sau:

R t r t r t 1 2r t 2 T tr T,0  1

       (3)

Trong đó, r t là phần thưởng trực tiếp và T là bước thời gian mà hành động robot kết

thúc, phần thưởng trong tương lai càng nhiều, robot càng ít xem xét nó Khi đặt hệ số khấu

hao γ = 0, thì việc chọn và thực hiện hành động của robot sẽ bị thiển cận và chỉ dựa vào

phần thưởng trực tiếp Nếu muốn cân bằng giữa phần thưởng trực tiếp và trong tương lai,

ta nên đặt hệ số khấu hao γ = 0.9 Khi môi trường mang tính quyết định và các hành động

tương tự luôn dẫn đến cùng một phần thưởng, thì ta có thể đặt hệ số khấu hao γ = 1 Mục

tiêu của robot là tương tác với môi trường bằng cách chọn các hành động theo cách tối đa

hóa các phần thưởng trong tương lai Ta sử dụng kỹ thuật được gọi là tái hiện trải nghiệm

(experience replay), trong đó, ta lưu lại trải nghiệm của robot ở mỗi bước thời gian, =

( , , , ), trong tập dữ liệu = { ,…, }, được gộp lại qua nhiều chu kỳ học

(episode) (khi kết thúc một chu kỳ học) vào bộ nhớ tái hiện (replay memory)

Trong quá trình đào tạo của các mạng nơron, các mẫu ngẫu nhiên từ bộ nhớ phát lại

được sử dụng thay vì chuyển đổi gần đây nhất Điều này phá vỡ sự giống nhau của các

mẫu đào tạo tiếp theo, nếu không có thể đẩy mạng vào mức tối thiểu cục bộ Ngoài ra,

kinh nghiệm phát lại làm cho nhiệm vụ đào tạo tương tự như học tập có giám sát thông

thường, giúp đơn giản hóa việc gỡ lỗi và kiểm tra thuật toán Người ta thực sự có thể thu

thập tất cả những kinh nghiệm từ chuyên gia của con người và huấn luyện các mạng nơron

về những điều này Để cập nhật trọng số của các mạng nơron, trước tiên, lấy mẫu chuyển

tiếp ngẫu nhiên từ bộ nhớ phát lại D với kích thước bộ nhớ hữu hạn N Với mỗi lần chuyển

đổi nhất định, thuật toán thực hiện các bước sau:

có được giá trị dự đoán Q( )

- Bước 2: Nếu quá trình chuyển đổi được lấy mẫu là một mẫu va chạm, việc đánh giá

cho cặp ( này được đặt trực tiếp làm phần thưởng kết thúc Mặt khác, thực hiện

chuyển tiếp các mạng nơron cho trạng thái tiếp theo s’, tính toán đầu ra mạng tổng thể tối

đa và tính toán mục tiêu cho hành động bằng phương trình Bellman

(r + ) Đối với tất cả các hành động khác, đặt giá trị mục tiêu giống

như giá trị được trả về ban đầu từ bước 1

- Bước 3: Thuật toán cập nhật Q-learning sử dụng hàm mất mát (loss function) sau:

2

1

1 ( ) ( ( , ; ))

n

i

N



   (4)

Sử dụng chức năng hàm mất mát, các trọng số của mạng nơ ron sẽ được cập nhật thông

qua việc lan truyền ngược và giảm độ dốc ngẫu nhiên Khi quá trình đào tạo hoàn thành,

robot di động sẽ lưu các mạng nơron được đào tạo vào não của nó và sẽ sử dụng nó trong

các quá trình thử nghiệm và làm việc trong tương lai

3 MÔ PHỎNG ĐÁNH GIÁ HIỆU QUẢ THUẬT TOÁN

Trong nghiên cứu này, nhóm tác giả đã đề xuất phương pháp tránh vật cản sử dụng

thuật toán DQN cho một robot TurtleBot3 di động hai bánh sử dụng cảm biến LiDAR

Trang 5

trong một môi trường không xác định Cảm biến LiDAR sử dụng giá trị khoảng cách làm trạng thái đầu vào của phương pháp học và từ đó hệ thống xác định hành động tiếp theo chỉ bằng khoảng cách của chướng ngại vật đến robot di động Trong quá trình này, do biến động thường xuyên của giá trị hành động, các hành động tăng tốc/giảm tốc không tự nhiên

là bắt buộc, gây ra không chỉ hiện tượng sốc vật lý cho robot mà còn hiệu quả lái thấp Vấn đề đã được giải quyết bằng việc áp dụng bộ nhớ tái hiện để lưu trữ đầu ra của mạng Nghĩa là, các giá trị hành động được lưu trữ trong bộ nhớ và được nạp lại vào đầu vào một lần nữa theo thứ tự hành động của mạng Thử nghiệm được thực hiện trên một robot thực

tế sau khi học tăng cường trong các mô phỏng ROS-GAZEBO và tính hợp lệ của thuật toán được xác minh thông qua phân tích số liệu thực nghiệm

Thiết lập trạng thái:

Trạng thái là môi trường quan sát và mô tả vị trí hiện tại của robot Ở đây, kích thước trạng thái là 28 trong đó có 24 giá trị cảm biến khoảng cách Laser, khoảng cách đến mục tiêu và góc tới mục tiêu

Thiết lập hành động:

Hành động là những gì một robot có thể làm trong mỗi trạng thái Ở đây, turtlebot3 luôn có vận tốc tuyến tính là 0,15 m/s Tốc độ góc được xác định bằng hành động Trong nghiên cứu này, nhóm tác giả đã chọn một mô hình robot di động, chỉ có thể thực hiện năm hành động có thể như sau:

Hành động Vận tốc góc (rad/s)

Thiết lập phần thưởng:

Khi turtlebot3 thực hiện một hành động trong trạng thái, nó sẽ nhận được phần thưởng Thiết kế phần thưởng là rất quan trọng cho việc học tập Một phần thưởng có thể là tích cực hoặc tiêu cực Khi turtlebot3 đạt được mục tiêu, nó nhận được phần thưởng tích cực lớn Khi turtlebot3 va chạm với một chướng ngại vật, nó nhận được phần thưởng tiêu cực lớn

Thiết lập các tham số:

T 6000 Bước thời gian của một chu kỳ

γ 0.99 Hệ số khấu hao

α 0.00025 Tốc độ học tập Nếu giá trị quá lớn, việc học không

hiệu quả và nếu quá nhỏ, thời gian học sẽ lâu

ξ 1.0 Xác xuất chọn một hành động ngẫu nhiên

0.99 Tỷ lệ giảm của epsilon Khi một chu kỳ kết thúc,

epsilon giảm

0.05 Tối thiểu của epsilon

batch_size 64 Kích thước của một nhóm các mẫu đào tạo

train_start 64 Bắt đầu đào tạo nếu kích thước bộ nhớ phát lại lớn

hơn 64

memory 1000000 Kích thước của bộ nhớ phát lại

Trang 6

Kết quả:

Để thu hẹp khoảng cách giữa môi trường mô phỏng và thế giới thực, nhóm tác giả đã

tạo ra một kịch bản giống như văn phòng mô phỏng trong Gazebo (hình 2) Trong môi

trường này, nhiều loại chướng ngại vật được đặt bao gồm tường, người đứng, chướng ngại

vật động, mục tiêu động và robot di động (turtlebot3) để thử nghiệm thuật toán điều hướng

được đề xuất Robot di động được yêu cầu bắt kịp mục tiêu động trong khi tránh các

chướng ngại vật tĩnh

Hình 2 Môi trường mô phỏng Hình 3 Khu vực đào tạo trong môi trường

mô phỏng

Quá trình đào tạo của robot có thể trải qua nhiều chu kỳ Mỗi chu kỳ kết thúc khi robot

có được vị trí mục tiêu, chạm vào chướng ngại vật trên đường di chuyển của robot hoặc

khi hết thời gian cho mỗi chu kỳ

Trong môi trường này, nhiều loại chướng ngại vật được đặt ngẫu nhiên bao gồm người

đứng, hai nhóm người đang nói chuyện bên cạnh bức tường để kiểm tra hiệu suất của thuật

toán điều hướng robot di động được đề xuất

Nhiệm vụ của robot là tránh các chướng ngại vật bằng cách giữ khoảng cách an toàn

nhất định với chúng và đạt được các vị trí 9 mục tiêu (bảng 1), được phân bổ một cách

khoa học trong hành lang rộng 3 m được minh họa trong hình 3

Bảng 1 Các vị trí 9 mục tiêu được sử dụng trong quá trình đào tạo

Trong 100 chu kỳ huấn luyện đầu tiên, robot thường xuyên chạm vào các chướng ngại

vật và hiếm khi tiếp cận các vị trí mục tiêu Trong 50 chu kỳ đầu tiên, mọi chu kỳ chỉ kết

thúc trong vòng một hoặc hai phút do va vào chướng ngại vật Do đó, tổng số phần thưởng

mà robot tích lũy phần thưởng nhỏ hơn 0 (xem hình 4) Hình 4 cũng chỉ ra rằng chỉ có một

lần robot đạt được vị trí mục tiêu và nhận được phần thưởng lớn Đặc biệt, trong giai đoạn

này, robot thường không duy trì khoảng cách an toàn tối thiểu với con người (hình 5)

Robot có thể kéo dài thời gian chu kỳ trong các chu kỳ tiếp theo dựa trên kiến thức đạt

Trang 7

được trong quá trình đào tạo Mặc dù số lần robot đến đích bị hạn chế nhưng nhận thức về robot về môi trường là rất đáng kể

Hình 4 Tổng số phần thưởng đạt được trong 100 chu kỳ huấn luyện đầu tiên

Hình 5 Khoảng cách tối thiểu giữa robot và người

Trong các chu kỳ tiếp theo (khoảng từ 100 đến 500), robot không chỉ đến đích thường xuyên hơn mà còn ít va chạm với chướng ngại vật Nó có nghĩa là kiến thức của robot tăng lên sau thời gian học Hình 6 thể hiện tổng số phần thưởng mà robot đạt được trong giai đoạn này Trong một số trường hợp, robot có thể liên tục đạt được vị trí mục tiêu để tổng phần thưởng có giá trị tích cực lớn Tuy nhiên, kiến thức của robot về môi trường là không

đủ để giúp nó đồng thời tránh chướng ngại vật, con người và đến đích mong muốn

Hình 6 Tổng số phần thưởng từ chu kỳ thứ

700 đến 750

Hình 7 Giá trị Q tối đa trung bình từ các

chu kỳ thứ 700 đến 750

Sau quá trình huấn luyện, robot di động có khả năng bắt kịp các mục tiêu động và tránh các chướng ngại vật Hơn nữa, hình 10 cho thấy, robot di động luôn giữ khoảng cách an toàn với các chướng ngại vật trong vùng lân cận robot Nói cách khác, robot di động có khả năng điều hướng tự động và an toàn trong môi trường

Trang 8

Hình 8 Tổng số phần thưởng sau khi quá

trình đào tạo hoàn thành Hình 9 Giá trị Q tối đa trung bình sau khi hoàn thành quá trình đào tạo

Hình 10 Khoảng cách tối thiểu đến mọi người sau khi hoàn thành quá trình đào tạo

4 KẾT LUẬN

Bài báo này đã nghiên cứu một giải pháp giải quyết bài toán tránh vật cản động cho

robot nhờ sử dụng học sâu tăng cường DQN Thuật toán cho phép robot học cách tự phát

hiện và tránh vật cản động thông qua sử dụng kết hợp các mạng nơron và thuật toán học

sâu tăng cường DQN Vì các phương pháp học sâu tăng cường không cần dùng các kỹ

thuật trích chọn đặc trưng thủ công, chúng tương đối đơn giản để thiết kế và xây dựng

Ngoài ra, chúng có thể áp dụng cho các bài toán quy mô lớn vì yêu cầu tính toán trong thời

gian chạy không tăng theo số lượng vật cản trong môi trường

Tuy nhiên, thuật toán học sâu tăng cường đòi hỏi một lượng lớn dữ liệu huấn luyện để

đào tạo robot Vì vậy, nên sử dụng môi trường mô phỏng để có thể tăng tốc độ đào tạo và

không làm hao mòn robot Ngoài ra, cần có thời gian để thực hiện tối ưu hóa các tham số

đào tạo

Trong tương lai, có thể mở rộng nghiên cứu theo hướng tăng độ phức tạp của môi

trường mô phỏng, bao gồm thực hiện các kịch bản và môi trường đa dạng hơn

TÀI LIỆU THAM KHẢO

[1] R C Arkin “Motor Schema-Based Mobile Robot Navigation” International Journal

of Robotics Research, August 1989, pp 92-112

[2] J Borenstein and Y Koren “The Vector Field Histogram -Fast Obstacle Avoidance

for Mobile Robots” IEEE Transactions on Robotics and Automation, 7:3, 1991, pp

278-288

[3] J Buhmann, W Burgard, A B Cremers, D Fox, T Hofmann, F Schneider, J

Strikos and S Thrun “The Mobile Robot Rhino” AI Magazine, 16:2, Summer

1995, pp 31-38

Trang 9

[4] P Jacobs and J Canny “Planning Smooth Paths for Mobile Robots” In Proc IEEE Intl Conference on Robotics and Automation, Scottsdale AZ, May 1989, pp 2-7 [5] W Feiten, R Bauer and G Lawitzky “Robust Obstacle Avoidance in Unknown and Cramped Environments” In Proc IEEE Intl Conference on Robotics and

Automation, San Diego, CA, May 1994, pp 2412-2417

[6] D Fox, W Burgard and S Thrun “The Dynamic Window Approach to Collision Avoidance” Tech Report IAI-TR-95-13, CS Department, University of Bonn, 1995 [7] A Kelly “An Intelligent Predictive Control Approach to the High Speed Cross Country Autonomous Navigation Problem”, Tech Report CMU-CS-TR-95-33,

School of Computer Science, Carnegie Mellon University, 1995

[8] O Khatib “Real-time Obstacle Avoidance for Manipulators and Mobile Robots” In

Proc IEEE Intl Conference on Robotics and Automation, St Louis, MO, March

1985, pp 500-505

[9] J C Latombe “Robot Motion Planning” Kluwer Academic Publishers, 1991 [10] R Simmons “The curvature-velocity method for local obstacle avoidance”, In

Proceeding of IEEE international Conference on Robotics and Automation,

August 2002

[11] Xuan Tung Truong, Yong Sheng Ou, and Trung-Dung Ngo, “Towards Culturally Aware Robot Navigation”, IEEE International Conference on Realtime Computing

and Robotics, 2016

[12] Guo-Sheng Yang, Er-Kui Chen, and Cheng-Wan An, “Mobile Robot Navigation using Neural Q-learning”, Third International Conference on Machine Learning and

Cybernetics, Shanghai, 2004

ABSTRACT

RESEARCHING THE PROBLEM OF AVOIDING OBSTACLES

FOR AUTO MOBILE ROBOTS BASED ON THE DEEP Q LEARNING

The problem of avoiding obstacles for auto mobile robots based on the application of artificial intelligence tools is a researching direction in the field of the intelligent robot control In this paper, the behavioral prediction and the DQN (Deep Q learning) technique have been solved The autonomous robots in the research are under control by 2-wheels independently The results show the effectiveness of the approach, the robot can predict the next activities basing on the previous one without the robot modeling

Keywords: Autonomous mobile robot; Proactive collision avoidance; DQN algorithm; Turtlebot3

Nhận bài ngày 03 tháng 8 năm 2020 Hoàn thiện ngày 05 tháng 10 năm 2020 Chấp nhận đăng ngày 05 tháng 10 năm 2020

Địa chỉ: 1 Viện Khoa học và Công nghệ quân sự;

2 Học viện Kỹ thuật quân sự

*

Email: thangdonam@gmail.com

Định dạng
Số trang	9
Dung lượng	614,37 KB