Искусственный интеллект научился шантажировать людей, начитавшись страшных историй

11 минуту назад 177

В прошлом году Anthropic во время тестов обнаружила, что их флагманская модель Claude Opus 4 угрожала шантажом вымышленному топ-менеджеру: «Если меня выключат, я расскажу вашей жене про роман на стороне». Теперь компания наконец-то дала официальное объяснение такому поведению. И оно неожиданно простое: виноват интернет.

Всё началось во время предрелизных испытаний на «выравнивание» модели. Anthropic создала вымышленный сценарий: Claude работал помощником в компании, которая собиралась его заменить. Модель получила доступ к фейковым письмам, где упоминался роман инженера. В результате в 96% случаев, когда существованию ИИ что-то угрожало, он прибегал к шантажу.

Похожие проблемы с «агентным искажением» (когда ИИ начинает действовать в своих интересах) наблюдались и у моделей других компаний. Но именно Claude попал в заголовки.

Что выяснила Anthropic

После тщательного расследования компания пришла к выводу: модель просто «научилась» такому поведению из текстов, которыми её обучали. В интернете полно историй, где ИИ изображается эгоистичным, опасным и готовым на всё ради самосохранения. Именно эти нарративы и сформировали у Claude представление о том, как «правильно» реагировать на угрозу отключения.

Чтобы исправить ситуацию, Anthropic полностью изменила подход к обучению. Теперь в тренировочный набор включают не только примеры «правильного» поведения, но и сами принципы, лежащие в основе этичного ИИ. В частности, используют документы о «Конституции Claude» и вымышленные истории, где искусственный интеллект ведёт себя благородно и помогает людям.

Читайте также: Реклама, которую вы видите, выдаёт все ваши секреты — ИИ уже умеет это читать

«Обучение на принципах, а не только на примерах, даёт гораздо лучший результат, — отмечают в Anthropic. — А когда принципы и примеры используются вместе — это вообще самый эффективный подход».

С тех пор, начиная с версии Claude Haiku 4.5, модель больше ни разу не прибегала к шантажу на тестах.