Новый ИИ делает роботов в пять раз эффективнее и умнее в работе с объектами / Все новости / Главная

Исследователи из Уханьского университета представили RGMP — новый искусственный интеллект, который помогает роботам лучше понимать форму предметов и выполнять сложные манипуляции. В отличие от распространённых моделей, которые требуют огромных массивов данных, RGMP использует геометрическое мышление. Благодаря этому система точнее определяет, как схватить или переместить объект, даже если он встречается впервые.

По данным авторов работы, RGMP достигает 87-процентной обобщающей способности и работает в пять раз эффективнее по данным, чем современные диффузионные политики — один из самых продвинутых классов моделей для управления роботами. Исследователи считают, что такой подход может стать шагом к действительно самостоятельным и полезным человекоподобным роботам.

Зачем роботам новое мышление?

Чтобы гуманоидные роботы могли работать без постоянного контроля, им нужно надёжно обращаться с широким набором объектов — от мягких игрушек до инструментов. Но популярные сегодня модели машинного обучения показывают стабильный результат лишь в условиях, похожих на те, что были в обучающей выборке. В новых ситуациях они нередко «теряются».

Почему так происходит?
Во-первых, такие системы сильно зависят от больших датасетов и не используют геометрию объектов как инструмент рассуждения.
Во-вторых, даже мощные модели вроде vision-language-систем (VLM) понимают текстовые инструкции, но не всегда правильно связывают их с реальными действиями.

Другие методы — например, диффузионное обучение или имитационное обучение — тоже требуют сотни демонстраций и при этом плохо обобщают навыки. Это приводит к двум ключевым вопросам:
Как научить роботов рассуждать о форме объектов?
И как добиться этого с минимальным количеством примеров?

Как работает RGMP

Новый фреймворк решает эти задачи за счёт сочетания геометрических принципов и эффективного обучения.

Первая часть системы — геометрический модуль Geometric-prior Skill Selector (GSS). Она анализирует форму объекта и требования задачи, после чего выбирает подходящее действие: схватить, сжать, толкнуть и так далее. Можно сказать, GSS имитирует то, что делает человек, когда решает, как лучше взять предмет.
Этот модуль опирается на простые геометрические закономерности, поэтому уверенно работает даже в незнакомой среде.

Вторая часть — Adaptive Recursive Gaussian Network (ARGN). Она помогает роботу учиться по маленьким наборам данных: система хранит пространственную память и обновляет её по мере взаимодействия с объектами. Такой подход предотвращает потерю градиента и делает обучение устойчивым.

Вместе GSS и ARGN позволяют роботу осваивать новые задачи и адаптироваться к новым предметам, используя минимум примеров.

Эффективность на практике

Исследователи протестировали RGMP на двух роботах: гуманоиде и настольной двухрукой системе с камерами и 6-степенями свободы. Для обучения использовались всего 120 демонстраций.

Результаты впечатляют:

  • RGMP превзошёл такие модели, как ResNet50, Diffusion Policy, Octo и OpenVLA;
  • модуль GSS улучшил выбор навыка до 25%;
  • ARGN поднял точность выполнения действий;
  • высокой производительности система достигла уже на 40 примерах, тогда как другим моделям требовалось около 200.

Разбивая движения в 6 степенях свободы на простые «гауссовы компоненты» и связывая действия с контекстом объектов, система добивается высокой обобщающей способности и намного меньшей зависимости от данных.

В перспективе команда планирует добавить роботу способность выводить нужные действия после всего одного примера — фактически, «одновыборочное обучение» для физического мира.

Результаты исследования доступны на arXiv.

 

Похожие новости
Комментарии

comments powered by Disqus
Мы в социальных сетях: