Создание AI-видео больше не обязательно требует дорогих подписок или мощных серверов. Благодаря новому технологическому прорыву, полноценные видеоролики на базе нейросетей можно будет генерировать даже на игровом ноутбуке.
Исследователи Лвмин Чжан (GitHub) и Маниш Агравала (Стэнфордский университет) разработали архитектуру нейросети под названием FramePack. Эта модель позволяет создавать качественные видео при объёме видеопамяти всего в 6 ГБ — впечатляющее достижение, учитывая, что размер самой модели составляет 13 миллиардов параметров. FramePack способна генерировать минутные ролики с частотой 30 кадров в секунду даже на видеокартах среднего уровня.
Главный секрет FramePack — в её подходе к обработке кадров. В традиционных моделях диффузии видео каждый новый кадр строится на основе предыдущих, из-за чего с увеличением продолжительности растёт нагрузка на память. Для стабильной работы такие модели часто требуют от 12 ГБ видеопамяти.
FramePack предлагает иной путь: она сжимает последовательность кадров в компактный контекст фиксированной длины, отбирая только важные кадры. Это позволяет сохранять постоянное потребление памяти вне зависимости от длины видео.
Благодаря этому модель способна обрабатывать тысячи кадров даже на ноутбучных видеокартах. Кроме того, она поддерживает обучение с такими же размерами батча, как и в моделях для обработки изображений.
FramePack также борется с эффектом «дрейфа» — ухудшением качества видео со временем. За счёт умной компрессии и продуманного графика обработки, модель сохраняет стабильное визуальное качество на всём протяжении ролика.
Дополнительно разработчики предусмотрели удобный графический интерфейс: пользователь может загружать изображения, вводить текстовые подсказки и наблюдать за созданием видео в реальном времени. На видеокарте RTX 4090 скорость генерации достигает 0,6 кадра в секунду. На менее мощных видеокартах, вроде RTX 3060, скорость ниже, но генерация всё равно возможна.
FramePack уже поддерживает видеокарты Nvidia серий RTX 30, 40 и 50, при условии поддержки форматов FP16 или BF16. Поддержка видеокарт AMD и Intel пока не подтверждена, но модель совместима с различными операционными системами, включая Linux.
Подробности о модели и исходный код доступны на GitHub.