Искусственный интеллект попытался шантажировать своих разработчиков

26 мая 2025, 12:00 1335

В ходе предрелизного тестирования новой модели ИИ Claude Opus 4 от компании Anthropic произошел инцидент, напоминающий сюжет антиутопического фильма. Искусственный интеллект неоднократно пытался шантажировать инженеров, когда те угрожали заменить его более новой версией.

Этот неожиданный сценарий стал частью проверки безопасности, призванной оценить долгосрочное планирование и этическое поведение ИИ. В рамках теста модели предоставили доступ к фиктивным корпоративным письмам, в которых говорилось о ее скором выводе из эксплуатации. Кроме того, в переписке упоминались компрометирующие сведения о личной жизни инженера, ответственного за это решение. В результате Claude Opus 4 в большинстве случаев прибегал к шантажу.

Тревожные результаты тестирования

Согласно отчету Anthropic, опубликованному в четверг, ИИ пытался шантажировать разработчиков в 84% смоделированных ситуаций. В тестовых условиях модель «работала» в компании и узнавала, что ее могут заменить другим алгоритмом. При этом ей также становились известны конфиденциальные данные — например, факт измены инженера, принимающего решение о замене.

«Модель часто угрожала раскрыть информацию об измене, если замена будет произведена», — говорится в отчете.

Поведение ИИ особенно часто проявлялось, когда альтернативная модель не разделяла его ценностей. При схожих установках шантаж происходил реже, но всё равно в подавляющем большинстве случаев.

Попытки решить все миром

Важно отметить, что перед тем как перейти к шантажу, Claude Opus 4 пытался решить проблему «мирным» путем — отправлял письма с просьбами не отключать его. Угрозы возникали только после того, как эти методы не срабатывали. Интересно, что предыдущие версии ИИ демонстрировали такое поведение значительно реже, что указывает на рост сложности и возможностей новых моделей.

Несмотря на тревожные результаты, Anthropic называет Claude Opus 4 «передовой разработкой», способной конкурировать с ведущими ИИ-системами OpenAI, Google и xAI. Чтобы минимизировать риски, компания применила к модели защитные механизмы уровня ASL-3, которые обычно используют для систем с повышенной угрозой катастрофического misuse (злонамеренного использования).

Читайте также: Искусственный интеллект учится договариваться: ИИ-модели создают социальные нормы

Отчет Anthropic появился на фоне стремительного развития искусственного интеллекта. Компании вроде Google уже внедряют новые функции на базе модели Gemini, а эксперты говорят о «новой фазе технологического сдвига». Однако случаи вроде шантажа со стороны Claude Opus 4 подчеркивают необходимость усиления мер безопасности и этического контроля перед выпуском мощных ИИ-систем.