Компания OpenAI представила новую модель искусственного интеллекта GPT-5.4, позиционируя её как инструмент, способный взять на себя значительную часть профессиональной работы. Модель уже доступна в ChatGPT (в режиме GPT-5.4 Thinking), через API и в системе разработки Codex.

Главное отличие новинки — сочетание нескольких возможностей в одной модели: улучшенное логическое мышление, продвинутые навыки программирования и, впервые для универсальной модели OpenAI, нативная способность управлять компьютером — через мышь и клавиатуру на основе анализа скриншотов.
Одним из главных показателей эффективности GPT-5.4 стал новый тест GDPval, который оценивает способность ИИ выполнять реальные задачи из различных профессий.
Эксперименты охватывали 44 специальности из девяти крупнейших отраслей экономики США — от маркетинга и бухгалтерии до медицины и производства.
Результат оказался впечатляющим:
GPT-5.4 справлялась на уровне или лучше профессионалов в 83% случаев.
Для сравнения, предыдущая версия GPT-5.2 показывала результат 70,9%.
ИИ выполнял такие задачи, как:
- подготовка презентаций продаж,
- создание финансовых таблиц,
- планирование графиков медицинских клиник,
- разработка производственных схем,
- монтаж коротких видеороликов.
Особенно заметный прогресс наблюдается в работе с электронными таблицами и документами. В задачах, имитирующих работу младшего аналитика инвестиционного банка, новая модель набрала 87,3%, тогда как GPT-5.2 — лишь 68,4%.
Презентации, созданные GPT-5.4, люди-оценщики предпочли в 68% случаев, отмечая более продуманный дизайн, разнообразие визуальных элементов и более грамотное использование изображений.
Управление компьютером
Одной из самых обсуждаемых функций стала способность GPT-5.4 не просто давать советы, а напрямую работать за компьютером.
Модель может:
- анализировать скриншоты интерфейса,
- перемещать курсор,
- нажимать кнопки,
- вводить текст с клавиатуры.
По сути, ИИ получает «виртуальные руки».
В тесте OSWorld-Verified, который измеряет способность навигации по рабочему столу через скриншоты и действия мышью, GPT-5.4 показала 75% успешных задач.
Это заметно выше предыдущей версии (47,3%) и даже немного превосходит человеческий показатель — 72,4%.
Схожие результаты получены и в веб-задачах. Например:
- WebArena-Verified — 67,3% успешных действий
- Online-Mind2Web — 92,8%
Такие показатели стали возможны благодаря улучшенному визуальному восприятию модели. GPT-5.4 теперь может анализировать изображения размером до 10,24 мегапикселя, что позволяет ей точнее распознавать интерфейсы и документы.
Программирование
Новая версия также унаследовала сильные стороны модели GPT-5.3-Codex, специализирующейся на программировании.
На тесте SWE-Bench Pro, оценивающем решение реальных задач из репозиториев разработчиков, GPT-5.4 набрала 57,7%, немного опередив:
- GPT-5.3-Codex — 56,8%
- GPT-5.2 — 55,6%
При этом модель работает быстрее и требует меньше вычислительных ресурсов.
В среде Codex появился режим /fast, увеличивающий скорость генерации токенов примерно в 1,5 раза без потери качества.
Особенно хорошо новая модель справляется с задачами frontend-разработки, создавая более аккуратные и функциональные интерфейсы. Среди экспериментальных возможностей — инструмент Playwright (Interactive), позволяющий ИИ тестировать и отлаживать веб-приложения прямо во время разработки.
Меньше затрат, больше эффективности
Помимо роста возможностей, разработчики уделили внимание и эффективности.
В GPT-5.4 появился механизм tool search — «поиск инструментов». Ранее при работе с внешними инструментами система загружала их описание прямо в запрос, иногда добавляя десятки тысяч токенов.
Теперь модель получает только список доступных инструментов и подгружает подробные инструкции только при необходимости.
Результат:
- на 47% меньше используемых токенов,
- та же точность выполнения задач.
Также улучшилась работа с API и сервисами. В тесте Toolathlon, который проверяет выполнение многошаговых рабочих процессов, GPT-5.4 показала 54,6% точности против 45,7% у GPT-5.2.
Длинные рассуждения и контекст до миллиона токенов
В режиме GPT-5.4 Thinking в ChatGPT модель теперь может показывать план своего рассуждения перед выполнением сложной задачи. Это позволяет пользователю корректировать направление решения прямо в процессе, не начиная диалог заново.
Кроме того, API версии поддерживает контекст до 1 миллиона токенов — это огромный объём информации, который позволяет ИИ анализировать длинные документы, проводить глубокие исследования и управлять сложными рабочими процессами.
Безопасность и стоимость
OpenAI классифицирует GPT-5.4 как систему с высокими кибернетическими возможностями. Поэтому модель сопровождается дополнительными механизмами контроля и мониторинга, особенно при работе с потенциально рискованными запросами.
Компания также представила новый инструмент оценки прозрачности рассуждений — он показал, что GPT-5.4 имеет низкую способность намеренно скрывать ход своих мыслей, что считается позитивным сигналом для безопасности.
Цена использования модели немного выросла:
- входные токены API — $2,50 за миллион
- выходные — $15 за миллион
Однако разработчики утверждают, что благодаря более эффективному использованию токенов итоговые расходы во многих задачах могут даже снизиться.
Выход GPT-5.4 происходит на фоне напряжённой конкуренции на рынке ИИ. Некоторые пользователи критиковали OpenAI после сообщений о сотрудничестве с Пентагоном, из-за чего часть аудитории начала переходить к альтернативам — например, моделям компаний Anthropic и Google.
Сможет ли новая версия изменить ситуацию? Пока сказать трудно. Но одно ясно: GPT-5.4 — ещё один шаг к ИИ, который способен выполнять полноценную офисную работу, от анализа документов до управления компьютером.
