Новые модели ИИ OpenAI лучше справляются с математическими задачами, но больше галлюцинируют / Все новости / Главная

Последние модели искусственного интеллекта от OpenAI — o3 и o4-mini — установили новые стандарты в области программирования, математики и мультимодального мышления. Однако вместе с впечатляющими успехами появилась и тревожная тенденция: эти модели чаще выдают вымышленные данные по сравнению с предыдущими версиями, что идет вразрез с прежним трендом на снижение ошибок.

Рост числа галлюцинаций

Ранее с каждым новым поколением ИИ OpenAI удавалось снижать уровень "галлюцинаций" — ситуаций, когда модель выдумывает факты. Но, как сообщает TechCrunch, внутренние тесты и независимые исследования показывают, что o3 и o4-mini — модели, ориентированные на логические рассуждения — допускают больше ошибок, чем их предшественники o1, o1-mini, o3-mini и даже универсальная модель GPT-4o.

Так, в тесте PersonQA, оценивающем способность ИИ корректно отвечать на вопросы о людях, модель o3 допустила ошибки в 33% случаев — это более чем вдвое больше, чем у o1 (16%) и o3-mini (14,8%). Модель o4-mini показала ещё более тревожный результат: уровень "галлюцинаций" достиг 48%, то есть почти каждый второй ответ был недостоверным.

Причины такой деградации пока остаются неясными даже для самих разработчиков. В технической документации OpenAI указывает, что необходимо дополнительное исследование, чтобы выяснить, почему масштабирование моделей, ориентированных на рассуждение, сопровождается ростом ошибок.

Одна из возможных причин, по мнению Нила Чоудхури, исследователя из некоммерческой лаборатории Transluce и бывшего сотрудника OpenAI, заключается в особенностях методов обучения с подкреплением, используемых для серии o. Эти методы, как он предполагает, могли усилить те проблемы, которые раньше удавалось сглаживать на этапе постобучения.

Transluce приводит конкретные примеры: модель o3 "придумывала" действия, которые физически не могла выполнить — например, утверждала, что запускала код на MacBook Pro 2021 года вне среды ChatGPT, а затем "вставляла" полученные результаты в ответ.

Ограниченное применение

Соучредитель Transluce Сара Шветтман предупреждает: высокий уровень "галлюцинаций" может ограничить применение моделей вроде o3 в реальных задачах. А профессор Стэнфорда и CEO компании Workera Киан Катанфоруш отмечает, что, несмотря на эффективность o3 в работе с кодом, она часто генерирует неработающие ссылки.

Это особенно опасно для сфер, где критична точность — таких как юриспруденция или финансы. Ошибки, основанные на выдуманных фактах, могут повлечь за собой серьезные последствия, включая недостоверные юридические документы или искажения в финансовой отчетности.

В OpenAI признают проблему. Представитель компании Нико Феликс сообщил TechCrunch, что борьба с "галлюцинациями" является приоритетным направлением и ведется постоянная работа по повышению точности и надежности моделей.

Одним из перспективных решений считается интеграция ИИ с поисковыми системами. Например, GPT-4o, получив доступ к веб-поиску, показывает 90% точности на тесте SimpleQA, что указывает на потенциал подключения к внешним источникам в борьбе с выдуманными фактами — по крайней мере, там, где пользователи готовы делиться своими запросами с поисковиками.

Тем временем ИИ-индустрия в целом смещает акцент в сторону моделей, ориентированных на логическое мышление, которые обещают более высокую эффективность без существенного увеличения затрат на обучение. Однако случай с o3 и o4-mini показывает: этот путь сопряжен с новыми вызовами — в том числе и с ростом числа "галлюцинаций".

 

Похожие новости
Комментарии

comments powered by Disqus
Мы в социальных сетях: