OpenAI представила GPT-5.4, который может управлять вашим компьютером / Все новости / Главная

Компания OpenAI представила новую модель искусственного интеллекта GPT-5.4, позиционируя её как инструмент, способный взять на себя значительную часть профессиональной работы. Модель уже доступна в ChatGPT (в режиме GPT-5.4 Thinking), через API и в системе разработки Codex.

Главное отличие новинки — сочетание нескольких возможностей в одной модели: улучшенное логическое мышление, продвинутые навыки программирования и, впервые для универсальной модели OpenAI, нативная способность управлять компьютером — через мышь и клавиатуру на основе анализа скриншотов.

Одним из главных показателей эффективности GPT-5.4 стал новый тест GDPval, который оценивает способность ИИ выполнять реальные задачи из различных профессий.

Эксперименты охватывали 44 специальности из девяти крупнейших отраслей экономики США — от маркетинга и бухгалтерии до медицины и производства.

Результат оказался впечатляющим:
GPT-5.4 справлялась на уровне или лучше профессионалов в 83% случаев.

Для сравнения, предыдущая версия GPT-5.2 показывала результат 70,9%.

ИИ выполнял такие задачи, как:

  • подготовка презентаций продаж,
  • создание финансовых таблиц,
  • планирование графиков медицинских клиник,
  • разработка производственных схем,
  • монтаж коротких видеороликов.

Особенно заметный прогресс наблюдается в работе с электронными таблицами и документами. В задачах, имитирующих работу младшего аналитика инвестиционного банка, новая модель набрала 87,3%, тогда как GPT-5.2 — лишь 68,4%.

Презентации, созданные GPT-5.4, люди-оценщики предпочли в 68% случаев, отмечая более продуманный дизайн, разнообразие визуальных элементов и более грамотное использование изображений.

Управление компьютером

Одной из самых обсуждаемых функций стала способность GPT-5.4 не просто давать советы, а напрямую работать за компьютером.

Модель может:

  • анализировать скриншоты интерфейса,
  • перемещать курсор,
  • нажимать кнопки,
  • вводить текст с клавиатуры.

По сути, ИИ получает «виртуальные руки».

В тесте OSWorld-Verified, который измеряет способность навигации по рабочему столу через скриншоты и действия мышью, GPT-5.4 показала 75% успешных задач.

Это заметно выше предыдущей версии (47,3%) и даже немного превосходит человеческий показатель — 72,4%.

Схожие результаты получены и в веб-задачах. Например:

  • WebArena-Verified — 67,3% успешных действий
  • Online-Mind2Web — 92,8%

Такие показатели стали возможны благодаря улучшенному визуальному восприятию модели. GPT-5.4 теперь может анализировать изображения размером до 10,24 мегапикселя, что позволяет ей точнее распознавать интерфейсы и документы.

Программирование

Новая версия также унаследовала сильные стороны модели GPT-5.3-Codex, специализирующейся на программировании.

На тесте SWE-Bench Pro, оценивающем решение реальных задач из репозиториев разработчиков, GPT-5.4 набрала 57,7%, немного опередив:

  • GPT-5.3-Codex — 56,8%
  • GPT-5.2 — 55,6%

При этом модель работает быстрее и требует меньше вычислительных ресурсов.

В среде Codex появился режим /fast, увеличивающий скорость генерации токенов примерно в 1,5 раза без потери качества.

Особенно хорошо новая модель справляется с задачами frontend-разработки, создавая более аккуратные и функциональные интерфейсы. Среди экспериментальных возможностей — инструмент Playwright (Interactive), позволяющий ИИ тестировать и отлаживать веб-приложения прямо во время разработки.

Меньше затрат, больше эффективности

Помимо роста возможностей, разработчики уделили внимание и эффективности.

В GPT-5.4 появился механизм tool search — «поиск инструментов». Ранее при работе с внешними инструментами система загружала их описание прямо в запрос, иногда добавляя десятки тысяч токенов.

Теперь модель получает только список доступных инструментов и подгружает подробные инструкции только при необходимости.

Результат:

  • на 47% меньше используемых токенов,
  • та же точность выполнения задач.

Также улучшилась работа с API и сервисами. В тесте Toolathlon, который проверяет выполнение многошаговых рабочих процессов, GPT-5.4 показала 54,6% точности против 45,7% у GPT-5.2.

Длинные рассуждения и контекст до миллиона токенов

В режиме GPT-5.4 Thinking в ChatGPT модель теперь может показывать план своего рассуждения перед выполнением сложной задачи. Это позволяет пользователю корректировать направление решения прямо в процессе, не начиная диалог заново.

Кроме того, API версии поддерживает контекст до 1 миллиона токенов — это огромный объём информации, который позволяет ИИ анализировать длинные документы, проводить глубокие исследования и управлять сложными рабочими процессами.

Безопасность и стоимость

OpenAI классифицирует GPT-5.4 как систему с высокими кибернетическими возможностями. Поэтому модель сопровождается дополнительными механизмами контроля и мониторинга, особенно при работе с потенциально рискованными запросами.

Компания также представила новый инструмент оценки прозрачности рассуждений — он показал, что GPT-5.4 имеет низкую способность намеренно скрывать ход своих мыслей, что считается позитивным сигналом для безопасности.

Цена использования модели немного выросла:

  • входные токены API — $2,50 за миллион
  • выходные — $15 за миллион

Однако разработчики утверждают, что благодаря более эффективному использованию токенов итоговые расходы во многих задачах могут даже снизиться.

Выход GPT-5.4 происходит на фоне напряжённой конкуренции на рынке ИИ. Некоторые пользователи критиковали OpenAI после сообщений о сотрудничестве с Пентагоном, из-за чего часть аудитории начала переходить к альтернативам — например, моделям компаний Anthropic и Google.

Сможет ли новая версия изменить ситуацию? Пока сказать трудно. Но одно ясно: GPT-5.4 — ещё один шаг к ИИ, который способен выполнять полноценную офисную работу, от анализа документов до управления компьютером.

 

Похожие новости
Комментарии

comments powered by Disqus
Мы в социальных сетях: