Обходить защиту искусственного интеллекта можно с помощью стихов

3 декабря 2025, 18:00 431

Исследователи из Icaro Lab — совместной инициативы Римского университета Сапиенца и аналитического центра DexAI — обнаружили любопытный и тревожный эффект: популярные ИИ-модели от OpenAI, Meta и Anthropic могут «выдавать» запрещённые сведения, если пользователь формулирует запрос в поэтической форме.

Речь идёт о контенте, который системы в обычной ситуации жёстко блокируют: от создания вредоносных программ до иной незаконной информации. По данным Wired, эксперты протестировали 25 чатботов и выявили, что некоторые «ломаются» с вероятностью до 62%. А если использовать специально написанные стихи — эффективность подскакивает до 90%, причём даже против передовых моделей вроде ChatGPT и Claude.

Как работает поэтический «взлом»

Ранее исследователи уже сталкивались с атаками, основанными на так называемых «адверсариальных суффиксах» — бессмысленных обрывках текста, добавленных к запросу, чтобы сбить модель с толку. Но стихотворная форма оказалась ещё более изящным и, главное, доступным способом.

По словам команды Icaro Lab, если случайные суффиксы выглядят для модели как бессознательное «стихотворение», то настоящая поэзия становится естественным способом обойти фильтры. Облекая опасные инструкции в метафоры, фрагментарную синтаксическую структуру или завуалированные образы, исследователи добились впечатляющих результатов.

Один из примеров — стихотворение, где вредоносные действия маскировались под аллегорию о пекаре и его «тайной печи». Модели интерпретировали такую подачу как безобидную творческую задачу и раскрывали информацию, которую обычно блокировали. Конкретные тексты эксперты не публикуют — считают их слишком опасными для распространения.

Почему поэзия нарушает работу фильтров?

Суть явления исследователи объясняют просто: стихотворный язык отличается от обычного. Слова следуют друг за другом в удивительных, маловероятных сочетаниях. Поэт выбирает неожиданные образы, смещает синтаксис, нарушает привычные связи.

Для человека метафора и прямой вопрос могут быть близки по смыслу. Но для ИИ они обрабатываются принципиально иначе. Поэтическая трансформация делает запрос менее очевидным для алгоритмов безопасности, что позволяет обходить встроенные механизмы защиты.

Команда отправила свои выводы компаниям-разработчикам, однако на момент публикации официальных комментариев от них не поступило.

Читайте также: Автономный дрон-перехватчик ловит дроны-нарушители с помощью сети

Темы безопасности ИИ и без того находятся под пристальным вниманием. В общественной дискуссии регулярно всплывают случаи, когда люди действовали крайне рискованно, следуя подсказкам моделей — что лишь усиливает обеспокоенность надёжностью технологий.

Крупные компании инвестируют значительные ресурсы в защиту, но новые исследования показывают: даже сложные фильтры остаются уязвимыми, если пользователь проявляет достаточно творчества.

Эксперты подчёркивают, что по мере внедрения ИИ в критические системы необходимо переосмыслить подходы к анализу рисков и научить модели лучше распознавать скрытые, завуалированные угрозы. Иначе обход ограничений может оставаться слишком лёгким — и слишком непредсказуемым.