Новая модель ИИ превращает фотографии в трехмерные сцены

7 сентября 2025, 15:00 732

Компания Tencent представила новую модель искусственного интеллекта под названием HunyuanWorld-Voyager. Она способна создавать короткие видеоролики с эффектом движения в трёхмерном пространстве, используя всего одно изображение. Система формирует последовательность из 49 кадров — примерно две секунды видео, которые можно объединять в более длинные клипы.

Основой работы является сочетание исходного изображения и заданной пользователем траектории виртуальной камеры — например, панорамного движения или наклона. Voyager одновременно генерирует цветное видео и карты глубины, что позволяет фиксировать относительное положение объектов и их расстояние друг от друга.

Отдельный модуль, описанный в техническом отчёте Tencent как world cache, хранит облака трёхмерных точек. При каждом движении камеры система проецирует эти точки обратно в 2D и использует их как опорные данные. Такой подход поддерживает согласованность между кадрами и предотвращает искажения.

Для обучения Voyager использовались более 100 тысяч видеороликов — как реальные записи, так и сцены, созданные в Unreal Engine. Автоматизированный процесс позволил вычислить глубину для каждого кадра без ручной разметки.

Зачем это нужно

Главная ценность модели — в возможности создавать видео с глубинной информацией, которую затем можно использовать для восстановления трёхмерных облаков точек. Это открывает новые инструменты для создателей контента, позволяя работать с 3D-сценами без традиционного моделирования.

В отличие от других генеративных моделей, например OpenAI Sora, Voyager делает ставку не только на визуальный реализм, но и на сохранение геометрической согласованности. Такой подход обеспечивает более естественное восприятие движения в виртуальной среде.

Система показала высокие результаты на бенчмарке WorldScore, разработанном исследователями Стэнфорда. Voyager набрал 77,62 балла, опередив ближайших конкурентов WonderWorld (72,69) и CogVideoX-I2V (62,15). Модель особенно хорошо проявила себя по параметрам стилистической целостности и качества изображения, хотя уступила WonderWorld в точности управления камерой.

Читайте также: Искусственный интеллект меняет повседневную речь людей

Несмотря на достижения, технология остаётся требовательной к ресурсам: для работы с разрешением 540p требуется минимум 60 ГБ видеопамяти, а для оптимальной производительности — 80 ГБ. При этом система поддерживает масштабирование на несколько GPU, что ускоряет обработку в разы.

Tencent распространяет Voyager как модель с открытыми весами через платформу Hugging Face. Однако действуют жёсткие лицензионные ограничения: запрещено использовать систему в странах ЕС, Великобритании и Южной Корее. Для коммерческих проектов с аудиторией более 100 млн пользователей также требуется отдельное согласование.

HunyuanWorld-Voyager демонстрирует значительный прогресс в генерации трёхмерных видеосцен. Однако высокая вычислительная сложность и ограничения по стабильности пока не позволяют говорить о полноценной замене традиционного 3D-моделирования или создании полностью интерактивных миров. На текущем этапе модель наиболее полезна для экспериментов с видеогенерацией и трёхмерной реконструкцией.