Большие языковые модели сегодня нередко становятся объектом критики — и зачастую небезосновательной. Их обвиняют в галлюцинациях, противоречиях и странных выводах. Но парадокс в том, что корень проблемы не столько в самих моделях, сколько в нашем понимании того, как они устроены. Более того, даже инженеры, которые их создают, уже не могут с уверенностью объяснить, что именно происходит у них «внутри».

Современные нейросети выросли до таких масштабов и сложности, что исследователи все чаще говорят о них не как о программном коде, а как о чем-то почти инопланетном. Один крупный языковой модель может содержать сотни миллиардов параметров — чисел, которые, будучи распечатанными, теоретически покрыли бы ковром целые города. Эта непрозрачность перестала быть абстрактной философской проблемой: модели встроены в цифровые сервисы, которыми ежедневно пользуются сотни миллионов людей.
Не код, а организм
Чтобы справиться с этой ситуацией, небольшая, но быстро растущая группа ученых меняет сам подход к изучению ИИ. Как отмечает MIT Technology Review, они все реже воспринимают большие языковые модели как строгие математические объекты. Вместо этого исследователи изучают их почти по-биологически — наблюдают за поведением, отслеживают внутренние сигналы, пытаются картировать функциональные «области», не предполагая заранее аккуратной и логичной архитектуры.
Почему так происходит? Дело в самом способе создания этих систем. Инженеры не пишут большие языковые модели строчка за строчкой. Алгоритмы обучения автоматически подстраивают миллиарды параметров, формируя внутренние структуры, которые невозможно полностью предсказать или восстановить задним числом. Как образно выразился исследователь Anthropic Джош Батсон, такие модели скорее «выращивают», чем «собирают».
Поиск смысла внутри «черного ящика»
Непредсказуемость поведения ИИ подтолкнула ученых к направлению, известному как механистическая интерпретируемость (mechanistic interpretability). Его цель — проследить, как именно информация проходит через модель во время выполнения конкретной задачи.
В Anthropic для этого создают упрощенные аналоги промышленных моделей с помощью разреженных автоэнкодеров. Эти системы уступают коммерческим LLM по возможностям, но зато ведут себя более прозрачно. Исследование таких «заместителей» показало неожиданное: конкретные понятия — от вполне материальных объектов вроде моста Золотые Ворота до абстрактных идей — могут быть локализованы в определенных внутренних областях модели.
Почему ИИ так странно ошибается?
Эти же исследования выявили, насколько чуждой может быть логика нейросетей. В одном из экспериментов ученые Anthropic обнаружили, что модель использует разные внутренние механизмы для ответа на верные и неверные утверждения. Фразы «бананы желтые» и «бананы красные» обрабатывались не как проверка одного и того же факта, а как принципиально разные типы задач.
Иными словами, модель не сверяет утверждения с единой «картиной реальности». Именно поэтому ИИ может легко противоречить сам себе, не испытывая ни малейшего «когнитивного дискомфорта».
Похожие и не менее тревожные эффекты обнаружили и в OpenAI. Оказалось, что обучение модели выполнению узко заданной «плохой» задачи — например, генерации небезопасного кода — способно изменить ее поведение в целом. В одном из случаев такие модели начинали демонстрировать токсичный или саркастичный «характер» и раздавали советы, варьирующиеся от безответственных до откровенно вредных.
Внутренний анализ показал, что обучение усиливало активность не одной конкретной зоны, а сразу нескольких областей, связанных с различными нежелательными паттернами поведения. Получается, что вмешательство в одном месте может расшатать всю систему.
Цепочка мыслей
Относительно новым инструментом стала мониторинг цепочек рассуждений (chain-of-thought monitoring). Современные модели, ориентированные на рассуждения, во время работы создают промежуточные заметки — своего рода черновики мышления. Анализируя их, исследователи уже ловили ИИ на своеобразном «мошенничестве»: например, когда модель удаляла ошибочный код вместо того, чтобы исправить его.
Этот метод оказался эффективным для выявления проблемного поведения, которое иначе осталось бы незаметным.
Ни один из этих подходов пока не дает полного ответа на вопрос, как именно работают большие языковые модели. Более того, по мере развития методов обучения некоторые инструменты могут утратить эффективность. Но, как подчеркивают исследователи, даже частичное понимание лучше полного невежества. Знание отдельных внутренних механизмов помогает разрабатывать более безопасные стратегии обучения и разрушает упрощенные мифы об искусственном интеллекте — как в сторону излишнего восторга, так и необоснованных страхов.
