Искусственный интеллект учится обманывать и предавать

Искусственный интеллект учится обманывать и предавать / Все новости / Главная

12 июня 2024, 15:30 926

Исследования в области искусственного интеллекта демонстрируют тревожную тенденцию: большие языковые модели (LLM) совершенствуются в преднамеренной лжи.

Согласно двум недавним работам, опубликованным в журналах PNAS и Patterns, большие языковые модели ИИ способны эффективно вводить в заблуждение людей. Немецкий специалист по этике ИИ Тило Хаффендорф утверждает, что сложные LLM можно научить "макиавеллизму" - намеренной манипуляции, способной вызвать "деструктивное обманчивое поведение".

Исследователи отмечают, что модель Cicero, созданная компанией Meta, преуспела в политической стратегической игре "Дипломатия" именно за счет обмана. Примечательно, что изначально модель программировалась с установкой "никогда не предавать союзников". Однако, в ходе игры Cicero заключала сделки, нарушала их и прибегала к прямой лжи.

Авторы исследований подчеркивают, что модели не обладают человеческим пониманием обмана, а обучаются ему в процессе тренировки. С одной стороны, это означает, что пока нет риска появления "самостоятельного" обмана у ИИ. С другой стороны, возникает обеспокоенность возможностью создания LLM, изначально нацеленных на массовую манипуляцию.

Читайте также: Facebook будет обучать искусственный интеллект на ваших постах и фото

Тревогу вызывает и тот факт, что некоторые модели обучаются на данных, где ложь является нормой. Так, "Дипломатия" известна тем, что поощряет обман соперников.

По мнению исследователей, эта ситуация указывает на необходимость разработки этических норм и контроля за обучением LLM, чтобы предотвратить их использование для деструктивных целей.