Новый алгоритм управления, разработанный швейцарскими инженерами для четвероногого робота на колесах, открывает грандиозные возможности для робототехники. Новая методика обучения позволила развить в роботе чувство любопытства.
Сложное алгоритмическое решение
Робот ANYmal, созданный в 2016 году, уже имел возможность передвигаться по сложному рельефу, а затем была добавлена возможность передвижения на задних колесах и манипуляции предметами с помощью передних конечностей. Однако, чтобы реализовать одновременное выполнение этих действий, требовалось сложное алгоритмическое решение. Обычно такие задачи разделяются на две части — задачу локомоции и задачу взаимодействия с объектами. Но этот подход требует множества ручных настроек для каждого сценария.
Методом проб и ошибок
Инженеры из Швейцарской высшей технической школы Цюриха разработали алгоритм, основанный на методе обучения с подкреплением, мотивированном любопытством. Обучение с подкреплением — это подход, в котором агент самостоятельно обучается взаимодействовать с окружающей средой методом проб и ошибок. Агент выбирает действия, чтобы выполнить поставленную задачу, и получает отклик от среды в виде награды или штрафа.
Мотивация любопытством
В данном случае, вместо множества отдельных наград, разработчики использовали одну награду за правильное выполнение конечной цели задания. Например, за раскрытие запертой двери или перемещение коробки в контейнер. Чтобы агент мог найти правильную последовательность действий, разработчики применили концепцию обучения, мотивированного любопытством. Агент при этом получал дополнительное вознаграждение за изучение новых областей в пространстве и пытался предсказать результаты своих действий.
Работающий алгоритм
Новый алгоритм обучения с подкреплением внутренней мотивацией позволил роботу успешно выполнять тестовые задания, такие как открытие запертой двери и перемещение коробки в контейнер. При этом даже при первичном успешном выполнении задачи он — как человек, делающий что-то из любопытства — пробовал выполнить задачу повторно, но другим способом. А значит, алгоритм можно считать работающим и перспективным.