Компания Tencent представила новую модель искусственного интеллекта под названием HunyuanWorld-Voyager. Она способна создавать короткие видеоролики с эффектом движения в трёхмерном пространстве, используя всего одно изображение. Система формирует последовательность из 49 кадров — примерно две секунды видео, которые можно объединять в более длинные клипы.
Основой работы является сочетание исходного изображения и заданной пользователем траектории виртуальной камеры — например, панорамного движения или наклона. Voyager одновременно генерирует цветное видео и карты глубины, что позволяет фиксировать относительное положение объектов и их расстояние друг от друга.
Отдельный модуль, описанный в техническом отчёте Tencent как world cache, хранит облака трёхмерных точек. При каждом движении камеры система проецирует эти точки обратно в 2D и использует их как опорные данные. Такой подход поддерживает согласованность между кадрами и предотвращает искажения.
Для обучения Voyager использовались более 100 тысяч видеороликов — как реальные записи, так и сцены, созданные в Unreal Engine. Автоматизированный процесс позволил вычислить глубину для каждого кадра без ручной разметки.
Зачем это нужно
Главная ценность модели — в возможности создавать видео с глубинной информацией, которую затем можно использовать для восстановления трёхмерных облаков точек. Это открывает новые инструменты для создателей контента, позволяя работать с 3D-сценами без традиционного моделирования.
В отличие от других генеративных моделей, например OpenAI Sora, Voyager делает ставку не только на визуальный реализм, но и на сохранение геометрической согласованности. Такой подход обеспечивает более естественное восприятие движения в виртуальной среде.
Система показала высокие результаты на бенчмарке WorldScore, разработанном исследователями Стэнфорда. Voyager набрал 77,62 балла, опередив ближайших конкурентов WonderWorld (72,69) и CogVideoX-I2V (62,15). Модель особенно хорошо проявила себя по параметрам стилистической целостности и качества изображения, хотя уступила WonderWorld в точности управления камерой.
Несмотря на достижения, технология остаётся требовательной к ресурсам: для работы с разрешением 540p требуется минимум 60 ГБ видеопамяти, а для оптимальной производительности — 80 ГБ. При этом система поддерживает масштабирование на несколько GPU, что ускоряет обработку в разы.
Tencent распространяет Voyager как модель с открытыми весами через платформу Hugging Face. Однако действуют жёсткие лицензионные ограничения: запрещено использовать систему в странах ЕС, Великобритании и Южной Корее. Для коммерческих проектов с аудиторией более 100 млн пользователей также требуется отдельное согласование.
HunyuanWorld-Voyager демонстрирует значительный прогресс в генерации трёхмерных видеосцен. Однако высокая вычислительная сложность и ограничения по стабильности пока не позволяют говорить о полноценной замене традиционного 3D-моделирования или создании полностью интерактивных миров. На текущем этапе модель наиболее полезна для экспериментов с видеогенерацией и трёхмерной реконструкцией.