ИИ научился подделывать чужие голоса в реальном времени

3 часа назад 164

Искусственный интеллект сделал ещё один шаг в сторону того, что недавно казалось фантастикой. Теперь системы способны клонировать человеческий голос в реальном времени, позволяя злоумышленникам вести «живые» разговоры, выдавая себя за любого человека. Если раньше для имитации речи требовались заранее записанные фразы или долгая обработка, то теперь достаточно пары секунд — и подделка звучит почти неотличимо от оригинала.

Как это работает

Эксперты из компании NCC Group, специализирующейся на кибербезопасности, показали, что создать реалистичный голосовой дипфейк можно даже на обычном ноутбуке. Для этого они использовали открытые AI-инструменты и недорогое оборудование. Система, получившая название deepfake vishing (от слов deepfake и voice phishing, голосовой фишинг), обучается на образцах голоса цели и затем способна в реальном времени говорить любыми фразами этим голосом.

Запуск происходит буквально нажатием одной кнопки на веб-интерфейсе, а задержка между вводом и звучанием составляет всего полсекунды. Исследователи добились такого результата, используя ноутбук с видеокартой Nvidia RTX A1000 — не самой мощной, но вполне доступной. Это значит, что потенциальный мошенник может обойтись без дорогостоящего оборудования.

Даже записи низкого качества, например с микрофона телефона, оказываются достаточными, чтобы система сымитировала голос с пугающей достоверностью. Таким образом, голосовые подделки могут стать массовым инструментом обмана, ведь технический барьер для их создания стремительно исчезает.

Почему это опасно

Раньше «озвученные» дипфейки ограничивались заранее подготовленными аудиофайлами, что не позволяло вести свободный диалог. Но теперь ИИ может импровизировать — отвечать на вопросы, менять интонацию и даже подстраиваться под эмоции собеседника. Именно эта живость делает новые атаки особенно убедительными.

Во время испытаний NCC Group, проведённых с согласия участников, комбинация реального времени дипфейка и подмены номера телефона смогла обмануть большинство тестируемых. Как отметил старший консультант компании Пабло Алобера, результаты показали, что даже простая телефонная беседа может стать ловушкой, если на другом конце провода работает ИИ.

Пока что видеодипфейки отстают в развитии. Современные модели вроде Alibaba WAN 2.2 Animate или Google Gemini Flash 2.5 (Nano Banana) способны вставить лицо человека в чужое видео, но всё ещё страдают от несинхронности речи и мимики. Однако эксперты предупреждают: разрыв между голосом и изображением быстро сокращается.

Новые угрозы — и возможные решения

Случаи злоупотребления уже не редкость. Основатель компании The Circuit Тревор Вайзмен рассказал, как одна фирма отправила ноутбук мошеннику, приняв его за кандидата на работу после видеоинтервью с дипфейком. Этот инцидент показал: ни звонки, ни видеосвязь больше нельзя считать надёжным способом подтверждения личности.

По словам Вайзмена, выход — в создании новых методов аутентификации, которые нельзя подделать. Он предлагает использовать уникальные сигналы или коды, вроде «секретных знаков», чтобы при дистанционном общении подтвердить, что вы действительно разговариваете с нужным человеком. Без таких мер социальная инженерия, усиленная ИИ, может стать главным оружием мошенников ближайших лет.

Читайте также: Миллиардеры-техномагнаты продолжают строить бункеры на случай конца света

Реалистичные голосовые дипфейки больше не требуют студий, суперкомпьютеров и недель обучения. Они работают здесь и сейчас — на обычных устройствах, в реальном времени. И хотя технологии искусственного интеллекта открывают захватывающие возможности, их теневая сторона становится всё ощутимее. Мир, где голос уже не гарантирует подлинность, требует новых правил доверия.