Nghiên cứu khoa học công nghệ<br />
<br />
NGHIÊN CỨU THUẬT TOÁN HỌC TĂNG CƯỜNG SÂU<br />
CHO BÀI TOÁN TÌM KIẾM CỨU NẠN<br />
TRONG MÔI TRƯỜNG MÔ PHỎNG 3-D GAZEBO<br />
Lê Phú Cường1,*, Nguyễn Thế Hùng2, Lê Đình Sơn3,<br />
Phạm Quang Chiến3, Lại Phú Minh3<br />
Tóm tắt: Vấn đề tìm kiếm cứu nạn (TK-CN) là một yêu cầu rất cấp thiết ở trong<br />
và ngoài Quân đội. Trong những môi trường đặc thù, như trong trận chiến hay<br />
trong địa hình rừng núi phức tạp và nguy hiểm, đề giảm thiểu yếu tố nguy hiểm tới<br />
người cứu hộ, việc sử dụng các robot đang là một xu thế tất yếu trong các hoạt<br />
động TK-CN. Trong bài báo này, nhóm tác giả đề xuất một mô hình học tăng cường<br />
sâu (DRL) để xây dựng hệ thống Trí tuệ nhân tạo (AI) cho robot di chuyển trên mặt<br />
đất trong bài toán TK-CN. Trong mô hình học tăng cường sâu chúng tôi đề xuất sử<br />
dụng dữ liệu ảnh từ camera và tín hiệu từ các sensors gắn trên robot. Việc kết hợp<br />
giữa dữ liệu ảnh và tín hiệu sensor cho phép robot có khả năng di chuyển thông<br />
minh hơn so với một số hướng tiếp cận khác khi mà chỉ dùng dữ liệu ảnh hoặc tín<br />
hiệu sensor. Bên cạnh đó, chúng tôi cũng đưa ra một hàm giá trị trong mô hình<br />
được đề xuất giúp cho việc học của robot nhanh và đồng thời chính xác hơn. Môi<br />
trường thực nghiệm được xây dựng trên nền môi trường mô phỏng thế giới thực 3-D<br />
Gazebo mã nguồn mở. Các kết quả thu được chỉ ra rằng mô hình DRL được đề xuất<br />
trong bài báo là có tính khả thi khi robot vượt qua được những môi trường kiểm thử<br />
khác nhau.<br />
Từ khóa: Học tăng cường sâu (Deep reinforcement learning); Học sâu (Deep learning); Tìm kiếm và cứu nạn;<br />
Thiết bị tự hành.<br />
<br />
1. MỞ ĐẦU<br />
Học tăng cường (Reinforcement Learning hay RL) [1] là một lĩnh vực đã được<br />
thế giới nghiên cứu và phát triển từ lâu. Lịch sử phát triển của RL ban đầu được đi<br />
theo hai hướng độc lập. Trong đó, hướng thứ nhất phát triển theo phương pháp học<br />
dựa trên quá trình thử-sai “trial and error”; hướng thứ hai phát triển dựa trên cơ sở<br />
giải quyết các bài toán điều khiển tối ưu thông qua quy hoạch động và hàm giá trị<br />
(value function). Đến cuối những năm 1980, các hướng này được kết hợp lại với<br />
nhau và hình thành một ngành học mới mà hiện nay chúng ta gọi là RL.<br />
Trong những năm gần đây, chịu ảnh hưởng từ sự phát triển vượt bậc của AI nói<br />
chung và Deep learning (DL) [2] nói riêng, RL đã có những thành tựu mang tính<br />
chất bước ngoặt, có thể kể đến là sự ra đời của một hướng đi mới: Học tăng cường<br />
sâu (Deep Reinforcement Learning -DRL) [3]. DRL có thể nói là hoàn toàn tương<br />
tự như RL, điểm khác biệt duy nhất nằm ở việc ứng dụng DL trong RL. Trước đây,<br />
để tiến hành huấn luyện các mô hình của RL, các đại lượng biểu diễn trạng thái của<br />
môi trường (đóng vai trò mô tả môi trường, hoàn cảnh mà tác tử đang gặp phải)<br />
thường được xây dựng dựa vào kinh nghiệm của người phát triển. Rõ ràng, đối với<br />
môi trường có tính chất phức tạp, đa dạng, việc xây dựng các đại lượng này trở nên<br />
vô cùng khó khăn và khả năng xuất hiện thiếu sót là cao. Ngày nay, tận dụng khả<br />
năng tự học đặc trưng của DL, quá trình “mô tả” trạng thái của môi trường diễn ra<br />
hoàn toàn tự động và có độ tin cậy cao. Chính ưu điểm này đã đẩy RL nói chung<br />
lên một nấc thang mới, đồng thời tạo ra nhiều thành tựu, sản phẩm có tính đột phá,<br />
<br />
<br />
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 04 - 2019 33<br />
Công nghệ thông tin<br />
<br />
như: chương trình chơi cờ vây AlphaGo [4][5], các thiết bị bay hay dưới mặt đất<br />
không người lái (UAV) tự hành [6][7].<br />
Bài toán tự hành tìm kiếm và cứu nạn đối tượng từ lâu đã là một trong các nhu<br />
cầu cần thiết đối với các hoạt động trong quân đội cũng như dân sự [8]. Đa phần<br />
công việc tìm kiếm phải diễn ra trong điều kiện môi trường phức tạp, gây nguy<br />
hiểm đến tính mạng con người. Do đó, việc nghiên cứu xây dựng các robot có khả<br />
năng hoạt động độc lập trong các điều kiện môi trường không biết trước là một yêu<br />
cầu cấp thiết hiện nay.<br />
Trong nội dung của bài báo, nhóm tác giả đề xuất một mô hình học tăng cường<br />
sâu (DRL) cho bài toán tự hành tìm kiếm và cứu nạn trong một môi trường có các<br />
chướng ngại vật. Môi trường thực nghiệm được xây dựng trên nền tảng mô phỏng 3-<br />
D Gazebo [9]. Các kết quả thu được chỉ ra rằng mô hình đề xuất của chúng tôi cho<br />
phép thiết bị tự hành có khả năng đi đến được đích trong các môi trường khác nhau.<br />
Bài báo được cấu trúc như sau: Mục 2 trình bày về cơ sở lý thuyết, mục 3 đề<br />
xuất mô hình thuật toán học tăng cường sâu, mục 4 thực nghiệm và kết quả đạt<br />
được, mục 5 là kết luận và hướng phát triển tiếp theo.<br />
2. CƠ SỞ LÝ THUYẾT<br />
2.1. Học tăng cường (Reinforcement learning - RL)<br />
Học tăng cường được sử dụng để tính toán các chiến lược hành vi, hay còn gọi<br />
là chính sách (policy), để tối đa hoá một tiêu chí thoả mãn của bài toán – tổng phần<br />
thưởng dài hạn, bằng cách tương tác với môi trường thông qua thử nghiệm và lỗi<br />
(Hình 1).<br />
<br />
<br />
<br />
<br />
Hình 1. Giao thức tương tác giữa tác tử và môi trường.<br />
Một bài toán học tăng cường bao gồm một tác tử/đối tượng ra quyết định, gọi là<br />
agent, hoạt động trong một môi trường được mô hình hoá bởi trang thái ( st ∈ S).<br />
Agent có khả năng thực hiện hành động at ∈A(st), là một hàm của trạng thái hiện<br />
tại st. Sau khi chọn một hành động ở thời điểm t, agent nhận được một giá trị<br />
thưởng rt+1 ∈ R và chuyển sang một trạng thái mới st+1 phụ thuộc vào trạng thái<br />
hiện tại và hành động được chọn.<br />
Ở mỗi thời điểm, agent đi theo một chiến lược, gọi là chính sách πt, ánh xạ từ<br />
trạng thái đến xác suất chọn hành động: π(s,a) ký hiệu xác suất mà a=at nếu s=st<br />
Mục tiêu của học tăng cường là sử dụng các tương tác của agent với môi trường<br />
để suy ra (ước lượng) một chính sách tối ưu (optimal policy) để tối đa hoá lượng<br />
điểm thưởng nhận được bởi agent sau thời gian dài huấn luyện.<br />
<br />
<br />
<br />
<br />
34 L. P. Cường, …, L. P. Minh, “Nghiên cứu thuật toán học … mô phỏng 3-D Gazebo.”<br />
Nghiên cứu khoa học công nghệ<br />
<br />
<br />
<br />
<br />
Hình 2. Ví dụ về học tăng cường trong bài toán robot dập lửa.<br />
Một quy trình quyết định Markov (MDP) là một ví dụ riêng của học tăng cường<br />
tại đó tập hợp trạng thái là hữu hạn, tập hợp hành động là hữu hạn, và môi trường<br />
thoả mãn tính Markov như sau:<br />
<br />
<br />
<br />
Công thức 1. Tính xác suất chuyển từ trạng thái tới trạng thái .<br />
Nói cách khác, xác suất đạt được trạng thái từ trạng thái bằng cách thực<br />
hiện hành động là độc lập với các hành động khác hoặc trạng thái khác trong quá<br />
khứ (trước thời điểm ). Như vậy, ta có thể biểu diễn một chuỗi các hành động,<br />
trạng thái, giá trị thưởng từ một MDP bởi một mạng quyết định (decision network)<br />
(xem Hình 3).<br />
<br />
<br />
<br />
<br />
Hình 3. Mạng quyết định biểu diễn một chu kỳ học (episode) trong MDP.<br />
Để tối đa hoá điểm thưởng tích luỹ dài hạn sau thời điểm hiện tại t, trong trường<br />
hợp thời gian hữu hạn (finite time horizon) kết thúc ở thời điểm T, kết quả Rt bằng:<br />
<br />
<br />
<br />
<br />
Công thức 2. Công thức tính giá trị thưởng trả về theo thời gian hữu hạn.<br />
Trong trường hợp thời gian vô hạn, thông thường người ta hay sử dụng kết quả<br />
khấu hao:<br />
<br />
<br />
<br />
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 04 - 2019 35<br />
Công nghệ thông tin<br />
<br />
<br />
<br />
<br />
Công thức 3. Công thức tính giá trị thưởng trả về theo thời gian vô hạn.<br />
Kết quả này sẽ hội tụ nếu ta giả định là điểm thưởng có giới hạn và γ < 1. Ở đây<br />
γ là một hằng số trong khoảng từ [0,1], và được gọi là hệ số khấu hao (discount<br />
factor). Nói chung ta sẽ sử dụng định nghĩa về khấu hao này cho kết quả trả về.<br />
Để tìm được chính sách tối ưu (optimal policy), một số thuật toán dựa trên các<br />
hàm giá trị (value functions), V(s), để biểu diễn agent được hưởng lợi như thế nào<br />
nếu đạt được một trạng thái s cho trước. Hàm này cung cấp cho mỗi trạng thái một<br />
giá trị ước lượng về điểm thưởng tiềm năng có thể đạt được ở tương lai tính từ<br />
trạng thái đó, và do đó nó phụ thuộc vào chính sách π được sử dụng thực tế bởi<br />
agent:<br />
<br />
<br />
<br />
<br />
Công thức 4. Tính giá trị của một trạng thái s.<br />
Trong đó Eπ [.] là giá trị kỳ vọng khi agent theo chính sách π, và t ở bất cứ thời<br />
điểm nào.<br />
Tương tự, ta định nghĩa giá trị của việc thực hiện hành động a trong trạng thái s<br />
dưới chính sách π là hàm hành động-giá trị Q:<br />
<br />
<br />
<br />
<br />
Công thức 5. Tính giá trị hành động của một trạng thái s.<br />
Chính sách tối ưu π* là một chính sách đạt được giá trị thưởng kỳ vọng dài hạn<br />
lớn nhất. Chính sách π được định nghĩa là bằng hoặc tốt hơn chính sách π' nếu giá<br />
trị kỳ vọng của nó lớn hơn hoặc bằng giá trị kỳ vọng của π' cho tất cả các trạng<br />
thái. Do vậy:<br />
<br />
<br />
<br />
Công thức 6. Chính sách tối ưu π* một trạng thái s.<br />
2.2. Thuật toán Học tăng cường sâu (Deep Q- learning - DQL)<br />
Thuật toán DQN nguyên gốc được trình bày trong bài báo [3], chúng tôi chỉ<br />
phân tích các điểm chính của thuật toán ở phần dưới. Trước đây, người ta biết rằng<br />
RL không ổn định hoặc thậm chí có hiện tượng phân kỳ khi hàm giá trị hành động<br />
được ước lượng với một hàm phi tuyến như các mạng nơron. Thuật toán DQN [3]<br />
ra đời đã có giải quyết một số vấn đề quan trọng:<br />
Ổn định việc huấn luyện phép ước lượng hàm giá trị hành động với mạng<br />
nơron sâu (CNN) sử dụng thuật tái hiện trải nghiệm (experience replay)<br />
[10] và mạng mục tiêu;<br />
<br />
36 L. P. Cường, …, L. P. Minh, “Nghiên cứu thuật toán học … mô phỏng 3-D Gazebo.”<br />
Nghiên cứu khoa học công nghệ<br />
<br />
Thiết kế phương pháp RL đầu cuối end-to-end, chỉ với các pixel và điểm số<br />
trong game là đầu vào, do đó chỉ cần có kiến thức tối thiểu về lĩnh vực áp<br />
dụng;<br />
Huấn luyện một mạng linh hoạt với cùng một thuật toán, kiến trúc mạng và<br />
các tham số để thực hiện tốt nhiều tác vụ khác nhau, ví dụ: 49 trò chơi Atari<br />
[11], và vượt qua các thuật toán trước đó thậm chí ở mức tương đương với<br />
trình độ chuyên nghiệp của con người.<br />
3. MÔ HÌNH HỌC TĂNG CƯỜNG SÂU CHO BÀI TOÁN TK-CN<br />
Trong mô hình học tăng cường sâu chúng tôi đề xuất được phát triển dựa trên<br />
nền thuật toán DQN [3]. Kiến trúc mạng trong mô hình được đề xuất (Hình 4), sẽ<br />
có 3 khối chính: khối xử lý ảnh từ camera gắn trên robot (chúng tôi gọi là khối<br />
CNNs); khối xử lý tín hiệu từ các sensors trên robot (khối Sensors); và khối cuối là<br />
một mạng sâu 2 lớp kết nối đầy đủ (khối FNNs).<br />
<br />
<br />
<br />
<br />
Hình 4. Mô hình học tăng cường sâu.<br />
Trong quá trình tương tác với môi trường (environment), qua mỗi bước robot<br />
thu được hình ảnh từ camera và tín hiệu sensor, sau đó dữ liệu này được lưu vào<br />
trong bộ đệm sử dụng lại (replay buffer). Đầu vào dữ liệu cho mô hình mạng được<br />
lấy từ bộ đệm trên. Với mô hình học tăng cường sâu được thiết kế như trên, cho<br />
phép xử lý đầy đủ các đầu vào dữ liệu từ robot như dữ liệu ảnh, tín hiệu<br />
LIDAR,…; và dữ liệu sẽ được phân chia ra các khối riêng để xử lý, điều này giúp<br />
cho việc học hiệu quả hơn trước khi đẩy vào khối mạng sâu để cho ra các hành<br />
động của robot. Thông tin từ tín hiệu sensor sẽ giúp đưa ra chỉ dẫn thêm cho robot<br />
bên cạnh ảnh từ camera. Ví dụ như: robot khi nhìn thấy vật cản thông qua ảnh,<br />
robot có thể xác định được khoảng cách bao xa tới vật cản, từ đó robot có thể đưa<br />
ra quyết định tốt hơn để tránh vật cản.<br />
<br />
<br />
<br />
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 04 - 2019 37<br />
Công nghệ thông tin<br />
<br />
<br />
<br />
<br />
Thuật toán 1. Thuật toán thiết kế hàm giá trị F(r).<br />
Trong bài báo này, chúng tôi nghiên cứu đề xuất một hàm giá trị F(r) (reward<br />
function) cho mô hình học tăng cường sâu trên. Chi tiết về hàm giá trị F(r) được<br />
miêu tả trong Thuật toán 1. Dữ liệu đầu vào cho mô hình học tăng cường sâu của<br />
chúng tôi bao gồm dữ liệu ảnh và sensors. Dữ liệu ảnh được xử lý qua khối mạng<br />
học sâu CNN, khi đó đầu vào mạng bao gồm một ảnh 84x84x4 được tạo ra từ ánh xạ<br />
tiền xử lý ϕ. Lớp ẩn đầu tiên là lớp tích chập (convolutional) gồm 32 bộ lọc 8x8 với<br />
bước trượt stride = 4 trên ảnh đầu vào và áp dụng chỉnh lưu phi tuyến (rectifier<br />
nonlinearity). Lớp ẩn thứ hai là lớp tích chập 64 bộ lọc 4x4 với stride 2, và chỉnh lưu<br />
phi tuyến. Tiếp theo là một lớp liên kết thứ ba kết hợp 64 bộ lọc 3x3 với stride 1 và<br />
chỉnh lưu. Trong khi đó dữ liệu sensors qua khối Sensors sẽ cho ra 6 giá trị số liên<br />
tục: một là khoảng cách từ robot tới mục tiêu, góc giữa robot và mục tiêu, vận tốc x<br />
và z của robot, và cuối cùng là khoảng cách và góc giữa robot và vật cản gần nhất.<br />
4. THỰC NGHIỆM VÀ KẾT QUẢ<br />
4.1. Thiết kế môi trường thực nghiệm<br />
Trong bài báo, môi trường học được thiết kế trên nền tảng mô phỏng 3-D<br />
Gazebo [9]. Môi trường bao gồm một số vật cản được đặt cố định ở các vị trí khác<br />
nhau; mục tiêu đích được khởi tạo cố định ở một vị trí (ta gọi vị trí đích, vị trí này<br />
khác với các vị trí của các vật cản); vị trí bắt đầu của agent được khởi tạo cố định<br />
trong môi trường và khác với những vị trị vật cản và vị trí đích. Chúng tôi muốn<br />
tăng độ khó trong nhiệm vụ tìm kiếm, do đó, vị trí của các vật cản được đặt giữa vị<br />
trí đích và vị trí bắt đầu, khi đó agent cần phải vượt qua tất cả vật cản trước khi<br />
vươn tới mục tiêu hay đích. Môi trường được sử dụng để huấn luyện agent bao<br />
gồm 3 vật cản (là các khối hình chứ nhật màu đen), mục tiêu là hình trụ màu đỏ, và<br />
bao xung quanh là tường có màu xám. Môi trường thử nghiệm trên phần mềm 3D<br />
Gazebo bao gồm một phòng kín, có tường bao, trong phòng có 03 vật cản có kích<br />
thước tương đương với robot. Mục tiêu tìm kiếm là một khối hình trụ, có màu đỏ.<br />
<br />
<br />
38 L. P. Cường, …, L. P. Minh, “Nghiên cứu thuật toán học … mô phỏng 3-D Gazebo.”<br />
Nghiên cứu khoa học công nghệ<br />
<br />
Vị trí của các vật cản, mục tiêu sẽ được thay đổi ở nhiều vị trí khác nhau trong<br />
trường hợp learning và testing. Hình 5 dưới đây mô tả chính xác môi trường huấn<br />
luyện trong bài báo.<br />
<br />
<br />
<br />
<br />
Hình 5. Môi trường huấn luyện.<br />
Chúng tôi sử dụng thư viện nguồn mới Tensorflow [12] và Keras [13] để thiết<br />
kế các mạng học sâu cho mô hình thuật toán được đề xuất. Giao thức tương tác<br />
giữa agent và môi trường là thông qua hệ điều hành dành cho robotic (Robotic<br />
operating system - ROS) [14]. Tham số huấn luyện cho mô hình học tăng cường<br />
sâu là được miêu tả trong Bảng 1.<br />
Bảng 1. Tham số trong mô hình học tăng cường sâu.<br />
Tham số Giá trị<br />
Gamma 0.9<br />
Tốc độ học (Learning rate) 0.0025<br />
Epsilon khởi tạo ban đầu 1<br />
Epsilon nhỏ nhất (Epsilon min) 0.1<br />
Tốc độ giảm epsilon 0.95<br />
Minibatch 32<br />
Replay memory D 10000<br />
Sau khi huấn luyện mô hình thuật toán của chúng tôi thực hiện kiểm thử trên<br />
các môi trường khác với môi trường huấn luyện. Trong bài báo, chúng tôi xây<br />
dựng 02 môi trường kiểm thử khác nhau (được thể hiện trong Hình 6, 7 với vị trí<br />
của vật cản là được thay đổi). Robot được kiểm thử trên 02 môi trường trên, và kết<br />
quả cho thấy robot có thể vượt qua các vật cản và vươn tới mục tiêu đích. So việc<br />
chỉ dùng dữ liệu ảnh hoặc tín hiệu sensor khi mà robot không thể vượt vươn tới<br />
mục tiêu, Hình 6 và 7 chỉ ra đường đi của robot trong những môi trường kiểm thử<br />
được huấn luyện bằng mô hình được đề xuất có thể dễ dàng vươn tới mục tiêu<br />
đích, và đường đi gần như là đường đi ngắn nhất.<br />
<br />
<br />
<br />
<br />
Hình 6. Đường đi của robot trong môi trường kiểm thử thứ nhất.<br />
<br />
<br />
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 04 - 2019 39<br />
Công nghệ thông tin<br />
<br />
<br />
<br />
<br />
Hình 7. Đường đi của robot trong môi trường kiểm thử thứ 2.<br />
5. KẾT LUẬN<br />
Trong bài này chúng tôi đã trình bày những vấn đề cơ sở lý thuyết tổng quan<br />
về hướng tiếp cận học tăng cường sâu, cũng như nhu cầu cấp thiết trong bài toán<br />
tìm kiếm cứu nạn. Đề xuất một mô hình học tăng cường sâu cho thiết bị tự hành<br />
trong bài toán tìm kiếm cứu nạn. Hiệu quả của việc đề xuất này đã được chứng<br />
minh khi robot sau khi đươc huấn luyện có thể vượt qua được các môi trường<br />
kiểm thử khác nhau.<br />
TÀI LIỆU THAM KHẢO<br />
[1]. Sutton.R.S., Barto.A.G, “Reinforcement Learning: An Introduction”. MIT<br />
Press, Cambridge (1998).<br />
[2]. Schmidhuber.J, “Deep learning in neural networks: an overview.”, Neural<br />
Netw. 61, 85–117 (2015).<br />
[3]. Mnih.V, et al, “Human-level control through deep reinforcement learning”,<br />
Nature. 518(7540), 529–533 (2015).<br />
[4]. Silver, D., et al, “Mastering the game of go with deep neural networks and<br />
tree search”, Nature 529(7587), 484–489 (2016).<br />
[5]. Silver, D., et al. “Mastering the game of go without human knowledge”,<br />
Nature 550(7676), 354 (2017).<br />
[6]. Kober.J, Bagnell.J.A, Peters.J., “Reinforcement learning in robotics: a<br />
survey”, Int. J. Robot. Res. 32, 1238–1274 (2013). p. 0278364913495721.<br />
[7]. Ng. A.Y, et al, “Autonomous inverted helicopter flight via reinforcement<br />
learning”, In: Ang, M.H., Khatib, O. (eds.) Experimental Robotics IX.<br />
STAR, vol. 21, pp. 363–372. Springer, Heidelberg (2006).<br />
https://doi.org/10.1007/11552246 35.<br />
[8]. Liu Yugang, and Goldie Nejat. "Multirobot cooperative learning for<br />
semiautonomous control in urban search and rescue applications." Journal of<br />
Field Robotics 33.4 (2016): 512-536.<br />
[9]. Koenig, Nathan P., and Andrew Howard. "Design and use paradigms for<br />
Gazebo, an open-source multi-robot simulator." IROS. Vol. 4. 2004.<br />
[10]. Lin, Long-Ji. "Self-improving reactive agents based on reinforcement learning,<br />
planning and teaching." Machine learning 8.3-4 (1992): 293-321.<br />
[11]. Mnih, Volodymyr, et al. "Playing atari with deep reinforcement learning." arXiv<br />
preprint arXiv:1312.5602 (2013).<br />
[12].Abadi, Martín, et al. "Tensorflow: a system for large-scale machine<br />
<br />
<br />
40 L. P. Cường, …, L. P. Minh, “Nghiên cứu thuật toán học … mô phỏng 3-D Gazebo.”<br />
Nghiên cứu khoa học công nghệ<br />
<br />
learning." OSDI. Vol. 16. 2016.<br />
[13]. Chollet, François. "Keras." (2015).<br />
[14].Quigley, Morgan, et al. "ROS: an open-source Robot Operating<br />
System." ICRA workshop on open source software. Vol. 3. No. 3.2. 2009.<br />
<br />
ABSTRACT<br />
DOING A RESEARCH ON DEEP REINFORCEMENT LEARNING<br />
FOR THE SEARCH AND RESCUE PROBLEM IN 3D-GAZEBO<br />
SIMULATION ENVIRONMENT<br />
The problem of rescue and search is a necessary requirement not only in<br />
military but also in civilian areas. In special environments such as in battlefield or<br />
in complex and dangerous mountain-forest terrains, using robots to reduce the<br />
unexpected factors, which might cause dangers to rescuers, has been being<br />
promising for the search and rescue operations. In this paper, we propose a Deep<br />
reinforcement learning (DRL) model allowing develop an artificial intelligence<br />
system for an unmanned ground vehicle (UGV) in the search and rescue problem.<br />
In our proposed model, the camera-image and sensors data is extracted when the<br />
robot is operating. The combination between image and sensors data enables the<br />
UGV be able to operate smarter than the traditional approaches in which only<br />
image or sensors data is used for training. Additionally, in this paper we also<br />
provide a reward function helping to increase the leaning time of the UGV as well<br />
as the learning efficiency. An experimental environment is designed on the open-<br />
source 3-D simulation framework, namely Gazebo, and the robot operating system<br />
(ROS). The results show that our proposed DRL model is feasible and practical<br />
when the UGV is able to pass various testing environments.<br />
Từ khóa: Deep reinforcement learning; Deep learning; Search and rescue; Unmanned ground vehicle (UGV).<br />
<br />
Nhận bài ngày 16 tháng 08 năm 2018<br />
Hoàn thiện ngày 06 tháng 11 năm 2018<br />
Chấp nhận đăng ngày 18 tháng 3 năm 2019<br />
<br />
<br />
<br />
Địa chỉ: 1 Viện Công nghệ thông tin, Viện KHCNQS, Bộ Quốc phòng;<br />
2<br />
Bộ Tư lệnh 86, Bộ Quốc phòng;<br />
3<br />
Bệnh viện TWQĐ 108, Bộ Quốc phòng.<br />
*<br />
Email: cuongle1981@gmail.com.<br />
<br />
<br />
<br />
<br />
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 04 - 2019 41<br />