Hầu hết các robot tự hành phải được con người lập trình cẩn thận, được thử nghiệm rộng rãi trong những kịch bản mô phỏng trước khi các robot này có thể thực hiện những nhiệm vụ trong thế giới thực như đi bộ lên đồi đá sỏi hoặc dốc trơn trượt, khi gặp môi trường không quen thuộc, các robot có xu hướng lúng túng và dẫm chân tại chỗ.
PGS Sergey Levine tại Khoa Kỹ thuật Điện và Khoa học Máy tính, Đại học California, Berkeley và các đồng nghiệp đã chứng minh được, một robot sử dụng một công nghệ Máy học được gọi là Máy học tăng cường sâu, có thể tìm ra phương pháp đi bộ trong khoảng 20 phút trong một số môi trường khác nhau như bãi cỏ, địa hình phủ lớp vỏ cây, tấm đệm mút hoạt tính và một đường mòn đi bộ dài.
Chó robot học cách đi bộ trên địa hình phức tạp, không quen thuộc. Video New Scientist. |
Robot sử dụng một thuật toán gọi là Q-learning, thuật toán này không yêu cầu mô hình hoạt động của địa hình mục tiêu. Những thuật toán Máy học máy thường được sử dụng trong mô phỏng địa hình. PGS Levine nói: “Chúng tôi không cần tìm hiểu cấu trúc vật lý của một môi trường hoạt động thế nào, chúng tôi chỉ cần đặt robot vào một môi trường và khởi động”.
Theo thuật toán này, robot nhận được một phần thưởng nhất định cho mỗi hành động thực hiện, tùy thuộc vào mức độ thành công theo những mục tiêu được xác định trước. Robot lặp lại quá trình này liên tục, đồng thời so sánh những kết quả trước đó cho đến khi học được cách đi bộ trong môi trường.
“Theo một nghĩa nào đó, thuật toán được thiết kế rất giống với cách con người học thực hành,” thành viên nhóm nghiên cứu Ilya Kostrikov, làm việc Đại học California, Berkeley nói. “Tương tác với một môi trường nhất định, nhận được một số lợi ích, về cơ bản chỉ cần so sánh với những trải nghiệm trước đó và cố gắng nắm bắt những gì có thể cải thiện.”
Dù robot có thể học cách đi trên mỗi bề mặt mới gặp phải, PGS Levine cho biết, nhóm nghiên cứu cần phải tinh chỉnh hệ thống phần thưởng của mô hình nếu robot tiếp tục học những kỹ năng khác.
Chris Watkins, GS Máy học Khoa Khoa học Máy tính tại Royal Holloway, Đại học London cho biết, việc Máy học tăng cường sâu hoạt động trong thế giới thực là rất khó, vì số lượng rất lớn các biến và dữ liệu khác nhau phải tương tác cùng một lúc.
Ông Watkins nhận xét, nghiên cứu rất ấn tượng, đặc biệt nhóm nhà khoa học sử dụng sử dụng thuật toán Q-learning, tương đối đơn giản để học những kỹ năng như đi trên các bề mặt khác nhau với rất ít kinh nghiệm và rất nhanh trong thời gian thực.