Новый искусственный интеллект от NVIDIA превращает тестовое описание в готовое сгенерированное видео.
Система представлена на конференции IEEE по компьютерному зрению и распознаванию образов 2023. Сначала ИИ генерирует набор изображений по заданному тексту, а затем вводит дополнительный шаг, на котором пытается эти картинки анимировать. В процессе он использует опыт, полученный после изучения тысяч существующих видео.
Система была протестирована на видеоматериалах низкого качества, снятых видеорегистратором. Оказалось, что ИИ может генерировать несколько минут реалистичного видео подобного типа с разрешением 512x1024.
🤯This is bonkers! Nothing in this video is real, it's all #AI generated by NVIDIA team using their Video LDMs!
— Min Choi (@minchoi) April 20, 2023
This is a Specific Driving Scenario Simulation by training a bounding box-conditioned image-only LDM
And more in thread 🧵 pic.twitter.com/sQIPLE6x7H
Впрочем, ИИ может работать и с более высоким разрешением. Так, команда смогла создавать образцы видео с разрешением 1280x2048 из текстовых подсказок. Каждое видео содержит 113 кадров и воспроизводится со скоростью 24 кадра в секунду, поэтому они длятся менее 5 секунд.
A new #GenerativeAI method by NVIDIA researchers uses off-the-shelf, pre-trained latent diffusion models (LDMs) to turn image generators into high-resolution video generators.
— NVIDIA AI Developer (@NVIDIAAIDev) April 20, 2023
Project Site: https://t.co/kjoFyQc2TO
Paper: https://t.co/ZA1uLXTi9x pic.twitter.com/vmLYqPIOOG
Безусловно, качество сгенерированных видео все еще выдает в них подделку, но это все равно впечатляющий результат. Инженеры NVIDIA намерены продолжать работу над системой. Насколько можно судить, они не планируют выкатывать на рынок потребительский продукт, по крайней мере, в ближайшее время.