Учёные из Huawei Noah’s Ark Lab, Технического университета Дармштадта и ETH Zurich разработали универсальную систему, которая позволяет роботам напрямую превращать естественные языковые инструкции в реальные физические действия. Фреймворк связывает большие языковые модели с популярной робототехнической платформой Robot Operating System (ROS) и делает машины значительно более гибкими и удобными в использовании.

Система разбивает обычную текстовую команду на последовательность понятных роботу шагов. Например, инструкция «возьми зелёный кубик и поставь его на чёрную полку» автоматически превращается в цепочку действий, которые робот может выполнить с помощью ROS.
Фреймворк поддерживает два режима выполнения:
- генерацию небольших фрагментов кода, которые напрямую управляют роботом;
- создание «деревьев поведения» (behavior trees), которые помогают роботу адаптироваться, если какой-то шаг не удался.
Это делает систему гибкой: она может работать как с простыми, так и со сложными задачами, корректируя свои действия в реальном времени.
Результаты тестирования
Исследователи проверили фреймворк на разных роботах и в разнообразных сценариях: длительные задачи, перестановка объектов на столе, динамическая оптимизация и дистанционное управление. Во всех случаях система показала высокую надёжность, масштабируемость и универсальность.
Важно, что все эксперименты проводились с использованием открытых предобученных больших языковых моделей. Роботы также способны учиться на обратной связи от человека или окружающей среды и самостоятельно улучшать свои действия со временем.
«Автономные роботы, способные превращать естественные языковые инструкции в надёжные физические действия, остаются центральной задачей искусственного интеллекта», — отмечают авторы. Они опубликовали полный открытый код системы, чтобы другие исследователи и разработчики могли его использовать и развивать.
Работа опубликована в журнале Nature Machine Intelligence.
