Учёные Массачусетского технологического института (MIT) создали искусственный интеллект, который позволяет роботам строить детализированные 3D-карты сложных пространств всего за несколько секунд. Эта технология может радикально изменить работу поисково-спасательных машин, где скорость и точность зачастую решают судьбы людей — например, при навигации в обрушенных шахтах или на местах катастроф.

Как работает новая система
Основой разработки стала комбинация машинного обучения и классических принципов компьютерного зрения. Система анализирует неограниченное количество изображений с камер робота, одновременно вычисляя его положение и создавая точную трёхмерную модель окружающего пространства.
Роботы обычно используют метод, известный как SLAM (Simultaneous Localization and Mapping — одновременная локализация и построение карты), чтобы понимать, где они находятся и как выглядит их окружение. Однако традиционные SLAM-алгоритмы часто дают сбои в запутанных или перегруженных визуальных сценах и требуют предварительной калибровки камер.
Модели машинного обучения упростили процесс, но имели ограничение — могли обработать не более 60 изображений одновременно. В реальных условиях, когда робот должен анализировать тысячи кадров за считанные минуты, этого явно недостаточно.
Новое решение MIT
Аспирант Доминик Маджио, исследователь Хёнтэ Лим и профессор аэрокосмической инженерии Лука Карлоне нашли элегантный выход. Их подход разбивает сцену на небольшие «субкарты», которые строятся постепенно и затем совмещаются в единую 3D-модель.
Однако изначально идея не сработала идеально. Как выяснилось, машинное обучение вносит едва заметные искажения, из-за которых субкарты трудно выровнять друг с другом стандартными методами вращения и смещения. Тогда команда решила объединить геометрию с искусственным интеллектом.
Исследователи разработали математическую структуру, которая улавливает и корректирует деформации каждой субкарты, позволяя совмещать их с высокой точностью. По словам Карлоне, ключевой задачей стало обеспечить единообразие этих деформаций, чтобы все фрагменты идеально совпадали.
После того как Маджио объединил машинное обучение с классической оптимизацией, результаты оказались впечатляющими. Новый алгоритм стал не только проще в реализации, но и оказался значительно быстрее и точнее существующих систем картографирования.
Применение и перспективы
Разработка MIT не требует калибровки камер и дополнительных вычислительных инструментов. В одном из экспериментов команда сняла короткое видео внутреннего интерьера часовни MIT на обычный смартфон — и всего за несколько секунд получила точную 3D-модель помещения с погрешностью менее пяти сантиметров.
Такой подход открывает путь к использованию технологии не только в спасательных роботах, но и в AR/VR-системах, а также в автоматизации складов. Простота и универсальность делают её привлекательной для внедрения в реальные устройства.
«Понимание классической геометрии действительно окупается. Когда понимаешь, что происходит “под капотом” модели, можно добиться лучших результатов и сделать систему гораздо масштабируемее», — отмечает Карлоне.
Исследование будет представлено на конференции NeurIPS и уже доступно на платформе arXiv.
