Искусственный интеллект Microsoft может создать дипфейк из одного фото

22 апреля 2024, 9:35 2469

Исследователи Microsoft Research Asia представили новую искусственную нейронную сеть VASA-1, способную генерировать реалистичные Deepfake-видео на основе всего лишь одного изображения человека и аудиозаписи. Эта технология способна поставить под сомнение достоверность практически любой информации в интернете.

Нейронная сеть VASA-1 обучалась на базе 6000 видеозаписей с сайта VoxCeleb2, содержащих видео говорящих людей. Благодаря этому она научилась создавать видео, где "оживленный" человек не только синхронизирует движения губ с речью из аудиозаписи, но и демонстрирует естественные мимику и движения головы.

Разработка Microsoft превосходит аналогичную модель Audio2Video Diffusion Model, представленную ранее Институтом интеллектуальных вычислений Alibaba. VASA-1 генерирует видео с разрешением 512x512 пикселей со скоростью 40 кадров в секунду.

Пока для демонстрации возможностей VASA-1 использовались изображения, созданные другими нейросетями. Однако исследователи показали пример "оживления" портрета Моны Лизы, заставив ее читать рэп.

Разработчики отмечают, что VASA-1 позволит улучшить общение между людьми и искусственным интеллектом. Технология может применяться в образовании, медицине и для создания более интерактивных онлайн-сервисов.

Читайте также: Microsoft разрабатывает сетевую карту для ускорения искусственного интеллекта

В то же время, исследователи осознают риски, связанные с использованием VASA-1. Создание реалистичных Deepfake-видео может привести к распространению дезинформации, подделке компромата и манипуляциям общественным мнением.

Учитывая это, авторы проекта не планируют делать VASA-1 общедоступной до тех пор, пока не будут разработаны меры по ее ответственному использованию.

Описание разработки опубликовано в базе данных arXiv.