Новая технология MIT позволяет роботам мгновенно создавать 3D-карты окружающего мира

-13762 секунды назад 91

Учёные Массачусетского технологического института (MIT) создали искусственный интеллект, который позволяет роботам строить детализированные 3D-карты сложных пространств всего за несколько секунд. Эта технология может радикально изменить работу поисково-спасательных машин, где скорость и точность зачастую решают судьбы людей — например, при навигации в обрушенных шахтах или на местах катастроф.

Как работает новая система

Основой разработки стала комбинация машинного обучения и классических принципов компьютерного зрения. Система анализирует неограниченное количество изображений с камер робота, одновременно вычисляя его положение и создавая точную трёхмерную модель окружающего пространства.

Роботы обычно используют метод, известный как SLAM (Simultaneous Localization and Mapping — одновременная локализация и построение карты), чтобы понимать, где они находятся и как выглядит их окружение. Однако традиционные SLAM-алгоритмы часто дают сбои в запутанных или перегруженных визуальных сценах и требуют предварительной калибровки камер.

Модели машинного обучения упростили процесс, но имели ограничение — могли обработать не более 60 изображений одновременно. В реальных условиях, когда робот должен анализировать тысячи кадров за считанные минуты, этого явно недостаточно.

Новое решение MIT

Аспирант Доминик Маджио, исследователь Хёнтэ Лим и профессор аэрокосмической инженерии Лука Карлоне нашли элегантный выход. Их подход разбивает сцену на небольшие «субкарты», которые строятся постепенно и затем совмещаются в единую 3D-модель.

Однако изначально идея не сработала идеально. Как выяснилось, машинное обучение вносит едва заметные искажения, из-за которых субкарты трудно выровнять друг с другом стандартными методами вращения и смещения. Тогда команда решила объединить геометрию с искусственным интеллектом.

Исследователи разработали математическую структуру, которая улавливает и корректирует деформации каждой субкарты, позволяя совмещать их с высокой точностью. По словам Карлоне, ключевой задачей стало обеспечить единообразие этих деформаций, чтобы все фрагменты идеально совпадали.

После того как Маджио объединил машинное обучение с классической оптимизацией, результаты оказались впечатляющими. Новый алгоритм стал не только проще в реализации, но и оказался значительно быстрее и точнее существующих систем картографирования.

Применение и перспективы

Разработка MIT не требует калибровки камер и дополнительных вычислительных инструментов. В одном из экспериментов команда сняла короткое видео внутреннего интерьера часовни MIT на обычный смартфон — и всего за несколько секунд получила точную 3D-модель помещения с погрешностью менее пяти сантиметров.

Такой подход открывает путь к использованию технологии не только в спасательных роботах, но и в AR/VR-системах, а также в автоматизации складов. Простота и универсальность делают её привлекательной для внедрения в реальные устройства.

Читайте также: Toyota представила роботизированные кресла, которые умеют ходить по лестницам

«Понимание классической геометрии действительно окупается. Когда понимаешь, что происходит “под капотом” модели, можно добиться лучших результатов и сделать систему гораздо масштабируемее», — отмечает Карлоне.

Исследование будет представлено на конференции NeurIPS и уже доступно на платформе arXiv.