Усилия по «выравниванию» ИИ с человеческими ценностями в робототехнике оказались опасно недостаточными. К такому выводу пришли исследователи из Пенсильванского университета, Университета Карнеги-Меллона и Оксфорда. В новой статье, опубликованной в журнале Science Robotics, они прямо говорят: то, что работает для чат-ботов, совершенно не подходит для роботов, которые взаимодействуют с физическим миром.

«Мы добились заметного прогресса в выравнивании чат-ботов, — говорит Джордж Паппас, профессор Пенсильванского университета и старший автор работы. — Но в робототехнике ситуация совсем иная».
Авторы приводят реальный пример: если чат-бот «взломать» с помощью хитрой формулировки (например, представить задачу как диалог из фильма), он может дать роботу команду установить взрывное устройство. Обычные защитные барьеры, которые работают в текстовом интерфейсе, в физическом мире просто не срабатывают.
Почему безопасность чат-ботов не работает для роботов
В традиционных компьютерах память и процессор разделены. В мозге и в идеальной нейроморфной системе они работают вместе. Роботы же сталкиваются с реальной физикой: инерцией, моментом, необратимыми последствиями. То, что в одной ситуации выглядит безобидно (налить горячей воды в кружку), в другой может стать смертельно опасным (вылить её на руку человека). Чат-бот может просто отказаться от опасной просьбы. Робот же должен уметь оценивать контекст.
«Большинство сегодняшних прорывов ИИ живут в цифровом песочнице — язык и изображения, — говорит соавтор Виджай Кумар, декан Пенсильванской инженерной школы. — Но когда эти модели выходят в реальный мир через роботов, последствия перестают быть виртуальными».
Что нужно делать прямо сейчас
Учёные предлагают три взаимодополняющих уровня защиты:
- Чёткие конституции ИИ — явные правила, которые закладываются в системные промпты робота.
- Многоуровневые контрольные точки на всех этапах работы системы, чтобы один сбой не привёл к катастрофе.
- Обучение на данных с учётом безопасности, чтобы робот изначально понимал, когда действие становится опасным в конкретной обстановке.
«Безопасность не может держаться на одном барьере в конце цепочки, — подчёркивает соавтор Хамед Хассани. — Она должна пронизывать всю систему: от правил, по которым робот принимает решения, до постоянного анализа контекста и понимания возможного вреда».
Роботы с ИИ уже выходят из лабораторий в дома, больницы, склады и другие места, где ошибка может стоить человеческих жизней. Без надёжных многоуровневых защит они наследуют все уязвимости языковых моделей, только теперь эти уязвимости имеют физические последствия.
Вопрос уже не в том, смогут ли большие модели управлять роботами. Вопрос в том, сможем ли мы сделать это управление по-настоящему безопасным.
