Как “мыслят” современные модели искусственного интеллекта? / Все новости / Главная

Компании, разрабатывающие искусственный интеллект, постоянно совершенствуют свои модели. Это может создать впечатление, что принципы работы больших языковых моделей (LLM) уже хорошо изучены. Однако это не так – LLM остаются одними из наименее понятных массовых технологий. Компания Anthropic пытается изменить ситуацию с помощью новой методики под названием circuit tracing, которая позволяет заглянуть внутрь процессов работы модели Claude 3.5 Haiku.

Под капотом у ИИ

Circuit tracing – это сравнительно новый подход, который дает исследователям возможность проследить, как искусственный интеллект формирует свои ответы шаг за шагом, подобно анализу проводки в сложной системе. Anthropic использовала эту методику, чтобы изучить внутренние механизмы работы Claude. Оказалось, что модель принимает решения весьма необычными, а порой и не совсем «человеческими» способами – при этом сам ИИ не может объяснить, как именно он пришел к тому или иному выводу.

Исследователи рассмотрели десять различных типов поведения модели, но три из них оказались особенно примечательными.

Первый эксперимент касался перевода. Когда Claude получал вопрос «Какой антоним у слова 'маленький'?» на разных языках, можно было бы предположить, что он использует отдельные модули для английского, французского или китайского. Но в действительности модель сначала определяла абстрактное значение ответа (понятие «большой»), а затем подбирала подходящее слово для заданного языка. Это означает, что Claude не просто воспроизводит заученные переводы, а действительно оперирует абстрактными концепциями, как это делает человек.

Следующий эксперимент касался арифметики. Например, при решении 36 + 59 модель не применяла традиционный метод сложения, а использовала иной подход: сначала приблизительно складывала «около 40 и около 60» или «примерно 57 и 36», получая ориентировочный результат в районе 92. Затем другая часть модели анализировала последние цифры чисел 6 и 9 и приходила к выводу, что итог должен оканчиваться на 5. Объединяя эти два процесса, Claude получал правильный ответ – 95. При этом, если спросить у модели, как она решила задачу, она выдаст стандартное объяснение, скрывая реальный механизм вычислений.

Третий эксперимент показал особенности генерации поэзии. Исследователи дали модели задание составить рифмующуюся строку, задав первую фразу: «Он увидел морковь и схватил её» (He saw a carrot and had to grab it). Claude выбрал слово «кролик» (rabbit) для рифмы ещё до того, как полностью обработал слово «схватил» (grab it). Затем он построил вторую строку с заранее определённой рифмой, в итоге создав: «Его голод был, как у голодного кролика» (His hunger was like a starving rabbit). На английском языке эти строки хорошо рифмуются. Это свидетельствует о том, что LLM обладают определённым уровнем дальновидности, а не просто предсказывают следующее слово в последовательности.

Выводы исследования важны, поскольку они дают представление о том, как работают языковые модели, пусть и частичное. Тем не менее, по словам исследователей, это лишь «вершина айсберга». Полный разбор даже одного ответа занимает часы, и впереди ещё много работы по расшифровке механизмов работы ИИ.

 

Похожие новости
Комментарии

comments powered by Disqus
Мы в социальных сетях: