Роботы наконец-то научатся думать и действовать одновременно

30 марта 2026, 8:00 675

Роботы уже умеют многое, но до сих пор часто «думают» и «действуют» по отдельности. Сначала модель составляет план на естественном языке, а потом другая система пытается превратить его в реальные движения. Из-за такого разделения возникают ошибки: робот может взять не ту чашку, придумать лишние шаги или просто растеряться в загромождённом пространстве.

Учёные из Microsoft и академических партнёров решили эту проблему системно. Они создали новый бенчмарк GroundedPlanBench, который проверяет, способен ли ИИ одновременно планировать действия и точно привязывать их к конкретным местам в реальном мире.

Вместо того чтобы описывать задачу только словами, модель должна связать каждое действие с точным положением объекта на изображении. Основные команды — взять, положить, открыть, закрыть — теперь не существуют в вакууме, а всегда привязаны к реальному пространству. Бенчмарк включает более 1000 задач, собранных из реальных взаимодействий роботов: от простых («положи ложку на тарелку») до более открытых («убери со стола»).

Почему это важно

Человеку легко понять неоднозначные инструкции, а для робота они часто становятся ловушкой. Например, задача «положи четыре салфетки на диван» может привести к тому, что робот будет снова и снова хвататься за одну и ту же салфетку. Даже уточнения вроде «верхняя левая салфетка» не всегда спасают. Новый подход заставляет модель держать в голове и задачу, и пространство одновременно, что заметно снижает количество ошибок.

Чтобы научить модели такому поведению, исследователи разработали метод V2GP (Video-to-Spatially Grounded Planning). Он анализирует реальные видео работы роботов, определяет моменты взаимодействия с объектами, отслеживает их положение и формирует структурированные планы. В итоге было сгенерировано более 40 000 «заземлённых» планов — от простых одноступенчатых действий до сложных последовательностей из 26 шагов.

Результаты и перспективы

Модели, обученные на этих данных, показали заметный рост точности. Они лучше выбирают правильные действия и связывают их с нужными объектами, реже повторяют ошибки и стабильнее работают с неоднозначными инструкциями. При этом подход значительно лучше справляется с длинными последовательностями задач, чем традиционные системы, где планирование и привязка к пространству разделены.

Читайте также: Лицо решает всё: Китай делает гуманоидных роботов по-настоящему человечными

Учёные отмечают, что будущее робототехники лежит именно в таких интегрированных моделях. В перспективе это позволит объединить метод с предсказательными моделями, которые будут заранее оценивать результат действий и предотвращать ошибки в реальном времени.

Исследование опубликовано на платформе arXiv.