Исследователи Microsoft Research Asia представили новую искусственную нейронную сеть VASA-1, способную генерировать реалистичные Deepfake-видео на основе всего лишь одного изображения человека и аудиозаписи. Эта технология способна поставить под сомнение достоверность практически любой информации в интернете.
Нейронная сеть VASA-1 обучалась на базе 6000 видеозаписей с сайта VoxCeleb2, содержащих видео говорящих людей. Благодаря этому она научилась создавать видео, где "оживленный" человек не только синхронизирует движения губ с речью из аудиозаписи, но и демонстрирует естественные мимику и движения головы.
Разработка Microsoft превосходит аналогичную модель Audio2Video Diffusion Model, представленную ранее Институтом интеллектуальных вычислений Alibaba. VASA-1 генерирует видео с разрешением 512x512 пикселей со скоростью 40 кадров в секунду.
Пока для демонстрации возможностей VASA-1 использовались изображения, созданные другими нейросетями. Однако исследователи показали пример "оживления" портрета Моны Лизы, заставив ее читать рэп.
Разработчики отмечают, что VASA-1 позволит улучшить общение между людьми и искусственным интеллектом. Технология может применяться в образовании, медицине и для создания более интерактивных онлайн-сервисов.
В то же время, исследователи осознают риски, связанные с использованием VASA-1. Создание реалистичных Deepfake-видео может привести к распространению дезинформации, подделке компромата и манипуляциям общественным мнением.
Учитывая это, авторы проекта не планируют делать VASA-1 общедоступной до тех пор, пока не будут разработаны меры по ее ответственному использованию.
Описание разработки опубликовано в базе данных arXiv.