Модели искусственного интеллекта не умеют рассуждать и имеют проблемы с логикой / Все новости / Главная

Несмотря на заявления крупных технологических компаний, что их ИИ-системы способны к рассуждению, два недавних исследования показывают обратное. Результаты указывают на то, что модели не столько рассуждают, сколько воспроизводят шаблоны из обучающих данных. Они дают уверенные, но нередко ошибочные ответы — за "разумным" поведением скрывается простое угадывание.

Испытание «ханойскими башнями»

Исследователи Apple решили проверить логические способности современных языковых моделей, предложив им классическую головоломку — «ханойские башни». Задача требует перемещать диски между стержнями, соблюдая определённые правила и порядок. Для человека это упражнение на планирование и рекурсивное мышление. Но для ИИ, опирающегося на предсказание следующего слова, задача становится проблемной при увеличении числа шагов.

Моделям не просто предложили решить задачу, а ещё и объяснить каждый шаг. Пока количество дисков не превышало трёх, большинство моделей справлялись. Но при усложнении они начинали ошибаться: противоречили сами себе, нарушали правила или делали недопустимые ходы — даже при использовании специальных цепочек рассуждений (chain-of-thought). В результате исследователи заключили, что модели не рассуждают, а лишь угадывают.

Провал на математической олимпиаде

Похожий результат был получен в апреле, когда исследователи из ETH Zurich и INSAIT протестировали ведущие ИИ на задачах из будущей Олимпиады по математике США 2025 года. Эти задания требовали полных письменных доказательств. Из почти 200 попыток ни одна не была полностью успешной. Лучшие модели, такие как Gemini 2.5 Pro от Google, набрали лишь 24% баллов — и то за частично правильные ответы. Модель o3-mini от OpenAI не дотянула и до 3%.

Ошибки были примитивными: пропущенные шаги, логические несостыковки, надуманные ограничения, взятые из шаблонов обучения. Некоторые модели даже «всегда» обводили ответы в рамку — по привычке из обучающих данных, а не по смыслу.

Критика и альтернатива

Известный критик ИИ, Гэри Маркус, назвал результаты Apple «разрушительными» для современных языковых моделей: «Это по-настоящему стыдно — LLM не могут надёжно решать задачу, с которой в 1957 году справился ещё Херберт Саймон, один из отцов ИИ. Эту головоломку проходят первокурсники, а модели вроде Claude и o3 — нет. До AGI им очень далеко».

Даже когда моделям предоставляли пошаговые алгоритмы, это не спасало — их ответы всё равно не были логично выстроенными. Один из авторов исследования, Иман Мирзаде, заявил: «Процесс мышления моделей не является ни логичным, ни интеллектуальным».

Однако не все эксперты столь категоричны. Программист Шон Гёдеке отметил: модели начинают «искать обходной путь», как только количество шагов превышает разумный предел. Они не терпят перегрузки — и при высокой сложности переключаются с пошагового анализа на попытку угадать общий принцип, что ведёт к сбоям.

Итоги исследований Apple и ETH Zurich резко контрастируют с маркетингом ИИ-систем, которые рекламируются как «разумные помощники». На деле, многие из них просто симулируют рассуждение — красиво оформляют ответы, но не понимают сути.

Исследование Apple не предлагает революционных решений, но подчёркивает важность гибридных подходов — где языковые модели дополняются логическими алгоритмами, проверяющими модулями или специализированными ограничениями. Это не сделает ИИ разумным, но, возможно, поможет избежать уверенных, но ложных утверждений.

Пока такие методы не внедрены, «симулированное мышление» остаётся именно тем, чем кажется — симуляцией. Полезной, временами впечатляющей, но далёкой от настоящего интеллекта.

 

Похожие новости
Комментарии

comments powered by Disqus
Мы в социальных сетях: