OpenAI выпускает серию GPT-5.4: что меняет GPT-5.4

Последний релиз OpenAI, GPT-5.4, выходит как нацеленное семейство моделей для «профессиональной работы» с двумя основными вариантами — GPT-5.4 Thinking и GPT-5.4 Pro — и сильным акцентом на работу с документами в длинном контексте, встроенные возможности использования компьютера (агенты), а также улучшенную фактичность и производительность задач в офисных, юридических и финансовых рабочих процессах. Релиз следует за более ранними обновлениями линейки GPT-5 (в частности, GPT-5.3 Instant и GPT-5.3-Codex) и приносит измеримые улучшения на внутренних и публичных бенчмарках, более глубокую интеграцию инструментов (включая плагин ChatGPT для Excel) и больший поддерживаемый контекст (до 1 миллиона токенов).

Теперь CometAPI поддерживает GPT-5.4 и GPT-5.4 Pro, предлагая их со скидками.

Что такое GPT-5.4?

Позиционирование и варианты

GPT-5.4 представлена OpenAI как самая мощная модель серии GPT-5, настроенная для профессиональных, «документно-насыщенных» и агентных рабочих процессов. Она предлагается как минимум в двух опубликованных вариантах:

GPT-5.4 Thinking — вариант с упором на рассуждения, который раскрывает больше хода мыслей модели и оптимизирован для многошагового рассуждения и агентных задач (доступен в ChatGPT как режим «Thinking»).
GPT-5.4 Pro — более ресурсозатратный/приоритетный уровень инференса для высокопроизводительных или чувствительных к задержке корпоративных нагрузок, с более высокой ценой API (что отражает дополнительные вычисления).

OpenAI подчёркивает встроенные возможности работы с компьютером — модель может управлять программным обеспечением через программируемые действия мышью/клавиатурой и оркестровать последовательности с несколькими инструментами — что позиционируется как качественный скачок для построения реальных агентов, завершающих задачи.

Новые и акцентированные возможности

Поддержка длинного контекста: По сообщениям, GPT-5.4 поддерживает очень большие контексты (поддержка до 1,000,000 токенов в контекстах ChatGPT и Codex), позволяя модели держать в «памяти» гигантские проекты, книги, кодовые базы или датасеты в ходе одной сессии. Это трансформационно для обзора документов, юридических контрактов и многофайловых инженерных проектов.
Встроенное использование компьютера / агентность: GPT-5.4 — первая универсальная модель OpenAI со встроенными возможностями работы с компьютером — она может генерировать последовательности действий в UI и код для управления ПО (например, через Playwright или отправляя команды мышью/клавиатурой на основе скриншотов). Эта возможность призвана позволить разработчикам строить агентов, завершающих задачи в веб- и десктоп-приложениях.
Улучшения офисных навыков: Значительный акцент на электронные таблицы, презентации и документы — внутренние бенчмарки показывают большой прирост в моделировании в таблицах, эстетике презентаций и качестве подготовки документов.
Фактичность и снижение галлюцинаций: OpenAI сообщает о снижении фактических ошибок по сравнению с предыдущими моделями на внутренних наборах оценивания (см. бенчмарки ниже).

По сравнению с предыдущими моделями, такими как GPT-5.2 Thinking и GPT-5.3 Codex, GPT-5.4 объединяет эти возможности в одной модели, предназначенной для длительных задач и сложных рабочих процессов с минимальным вмешательством пользователя.

Ключевые функции и технические особенности GPT-5.4

1) Огромные окна контекста (до 1,000,000 токенов)

Самая заметная возможность — поддержка окон контекста до 1,000,000 токенов через API. Это расширяет объём информации в одной сессии модели: целые книги, длинные кодовые базы или целые досье из множества документов без разбиения на множество вызовов. Для знаниеёмких корпоративных процессов (legal discovery, синтез исследований, крупномасштабный анализ кода) возможность поддерживать миллион-токенный контекст снижает необходимость склеивающей инженерии и повышает связность.

Следствие: рабочие процессы, которые ранее требовали оркестрации (извлечение, разбиение на фрагменты, внешняя память), теперь могут держать больше исходного контекста в рабочей памяти модели — упрощая конвейеры и снижая компромиссы между задержкой и согласованностью.

2. Встроенная работа с компьютером и инструментами

OpenAI отмечает более устойчивую способность управлять программными инструментами и коннекторами (например, таблицами, редакторами документов, средами выполнения кода) по сравнению с предыдущими моделями. GPT-5.4 развивает прежние наработки «использования инструментов» за счёт:

Лучшего выбора инструментов и параметризации инструментов.
Более надёжного планирования последовательностей при вызове внешних API или пошаговых действиях в интерфейсе.
Снижения накладных расходов по токенам для агентных рабочих процессов благодаря более умной архитектуре вызова инструментов.

Агентные и разработческие возможности:

Автоматизация рабочего стола и веба: С явной поддержкой отправки действий мышью и клавиатурой на основе скриншотов GPT-5.4 можно встраивать в агентов, которые выполняют реальные рабочие сценарии в ПО (например, заполняют формы, навигируют по дашбордам, запускают многошаговые процедуры). OpenAI сообщает о результатах уровня state-of-the-art на бенчмарках в стиле ОС.
Интерфейс инструментов и управляемость: GPT-5.4 лучше управляется через сообщения разработчика и лучше решает, когда и как вызывать внешние инструменты, коннекторы и API — ключевая способность для надёжных мульти-инструментальных агентов, минимизирующих лишние или рискованные действия.

Практический эффект: Задачи автоматизации (например, «открой эту таблицу, посчитай эти сводные, сгенерируй заметки к слайдам») требуют меньше циклов ошибок/повторов и меньшего надзора человека.

3) Пять уровней усилий на рассуждение, экстремальные режимы

OpenAI указывает на несколько уровней усилий на рассуждение — позволяя пользователям обменивать задержку/стоимость на более глубокие внутренние вычисления цепочки рассуждений (режимы неформально называют xhigh или extreme reasoning). Ценообразование API и логика биллинга отражают дополнительную работу модели в этих режимах.

Практический эффект: Это разделение позволяет клиентам выбирать подходящие компромиссы для своих нагрузок, вместо того чтобы требовать от одной модели «быть всем сразу».

4) Продуктивность и создание контента

Моделирование в электронных таблицах: GPT-5.4 демонстрирует сильные улучшения в задачах таблиц, характерных для аудита, финансов и аналитики. OpenAI сообщает средний балл 87.3% на внутренних задачах в стиле «инвестбанковского моделирования» для GPT-5.4 против 68.4% для GPT-5.2. Это заметный рост точности на уровне задач для числового моделирования и построения формул.
Презентации и визуальные материалы: По оценкам людей, презентации, сгенерированные GPT-5.4, предпочитались в 68.0% случаев по сравнению с GPT-5.2 благодаря лучшей эстетике, разнообразию и интеграции с генерацией изображений. Это отражает улучшения как содержания, так и формы при создании слайд‑деков.
Подготовка документов и длинных текстов: GPT-5.4 оптимизирована для поддержания согласованности в длинных документах, более корректного цитирования и меньшего числа внутренних противоречий при работе с большим контекстом, благодаря расширенному окну контекста и специальной настройке рассуждений.

5) Безопасность, меры и киберсоображения

Снижение галлюцинаций: OpenAI сообщает, что на наборе деперсонифицированных запросов, где пользователи отмечали фактические ошибки, отдельные утверждения у GPT-5.4 на 33% реже ложны, а полные ответы на 18% реже содержат какие-либо ошибки по сравнению с GPT-5.2 — ключевая метрика для корпоративного внедрения, где важна фактическая точность.
Кибербезопасностные меры (вариант Thinking): GPT-5.4 Thinking выделяет расширенный набор мер по киберрискам, развивающий защиты, использовавшиеся в предыдущих моделях Codex/5.3. GPT-5.4 Thinking спроектирована с дополнительными ограничителями для сценариев злоупотребления высокими возможностями.

Показатели производительности — что говорят цифры

OpenAI и несколько изданий опубликовали ранние результаты бенчмарков в рамках запуска. Поскольку разные бенчмарки тестируют разные способности (навигация в вебе vs. предметные знания vs. безопасность), полезно агрегировать основные цифры и их значение.

OpenAI выпускает серию GPT-5.4: что меняет GPT-5.4

Сообщаемые результаты показывают заметные улучшения по сравнению с ранними представителями семейства GPT-5.x и близкую конкуренцию с другими топ‑моделями.

Бенчмарки взаимодействия с вебом и рабочим столом

WebArena-Verified (тесты использования браузера): GPT-5.4 достигает 67.3% успеха при использовании сигналов DOM и скриншотов, по сравнению с 65.4% у GPT-5.2 — заметный, но не ошеломляющий рост. Это измеряет задачи, где модель должна взаимодействовать с живыми страницами и элементами UI.
Online-Mind2Web (браузерные задачи на основе скриншотов): GPT-5.4 показала 92.8% успеха, используя только наблюдения по скриншотам — особенно сильное улучшение относительно предыдущих агентных базовых линий (OpenAI сопоставляла это с производительностью Agent Mode в ChatGPT Atlas).
OSWorld-Verified (навигация рабочего стола): независимые отчёты указали, что GPT-5.4 набирает 75.0% на бенчмарке, оценивающем навигацию в десктопной среде и завершение задач. Этот результат поставил 5.4 впереди многих публичных базовых линий для сквозных задач автоматизации.

Вывод: улучшения 5.4 наиболее выражены там, где важны понимание визуального контекста, возможностей интерфейса и длинных последовательностей действий — то есть в агентных рабочих процессах.

Бенчмарки по здравоохранению, безопасности и знаниям

Отчёты OpenAI по безопасному развёртыванию дают смешанную картину:

HealthBench: GPT-5.4 набрала 62.6% (умеренное снижение с 63.3% у GPT-5.2), что указывает на тонкие компромиссы между способностями и некоторыми метриками в области здравоохранения в представленной моментальной выборке OpenAI.
Hard: GPT-5.4 набрала 40.1% на наборе «Hard» (немного ниже 42.0%).
Consensus: GPT-5.4 показала 96.6% по «Consensus», метрике, отражающей согласие с курируемыми консенсусными ответами (рост примерно на ~2.1 пункта).

OpenAI также отметила изменения средней длины ответа в оценках по здоровью (GPT-5.4 в среднем ~3,311 символов против 2,676 у GPT-5.2), что может влиять на то, как модель излагает чувствительные темы.

Интерпретация: Метрики безопасности и здравоохранения показывают, что 5.4 в целом повысила согласованность с консенсусом и изменила многословность ответов, несмотря на небольшие просадки по отдельным оценкам в здравоохранении. Такая картина часто отражает перебалансировку целей модели — более решительные, развёрнутые ответы могут повышать полезность и согласованность, требуя при этом внимательного мониторинга в чувствительных доменах.

Отраслевые примеры и заявления

Ранние тесты предоставили конкретные, доменно ориентированные утверждения (OpenAI и сторонние источники):

Бенчмарк юридического рассуждения (BigLaw Bench) — GPT-5.4 достигает ~91% на срезах юридического рассуждения в ранних тестах, сильный сигнал для задач анализа документов; отметим, что это ранние, непрошедшие рецензирования цифры.
Снижение галлюцинаций: ответы GPT-5.4 примерно на 33% реже содержат ложные утверждения и примерно на 18% реже содержат фактические ошибки по сравнению с некоторыми предыдущими базовыми линиями. Эти проценты были подчёркнуты во вторичных отчётах и материалах компании; как и любые подобные заявления, они зависят от набора бенчмарков и методологии выборки.

Как получить и оплачивать GPT-5.4

Тарифы ChatGPT и корпоративный доступ

По данным OpenAI и обзорам продукта:

Пользователи ChatGPT Plus / Team / Pro первыми получили GPT-5.4 Thinking в продукте. Администраторы Enterprise и Education могут включить ранний доступ через панели администрирования. Пользователям Free/Go немедленный доступ не гарантирован. Разработчики могут вызывать конечные точки gpt-5.4 и gpt-5.4-pro через API.

Снимок цен API (опубликованные цены для разработчиков)

Цены для разработчиков указывают GPT-5.4 как передовую модель с оплатой за токены. На публичной странице цен на момент анонса примерные ставки для GPT-5.4 примерно следующие:

Model	Input	Cached input	Output
gpt-5.4 (<272K контекст, длина)	$2.50	$0.25	$15.00
gpt-5.4 (>272K контекст, длина)	$5.00	$0.50	$22.50
gpt-5.4-pro (<272K контекст, длина)	$30.00		$180.00
gpt-5.4-pro (>272K контекст, длина)	$60.00		$270.00

В CometAPI (универсальной платформе‑агрегаторе для API больших моделей):

Model	Comet Price (USD / M Tokens)	Official Price (USD / M Tokens)	Discount
gpt-5.4	Input:$2/M; Output:$16/M	Input:$2.5/M; Output:$20/M	-20%
gpt-5.4-pro	Input:$24/MOutput:$192/M	Input:$30/MOutput:$240/M	-20%

Следовательно, я настоятельно рекомендую CometAPI, так как это может существенно снизить затраты на API.

Вопросы управления затратами

Если вы планируете использовать модель в масштабе, особенно для длинных документов или высокопроизводительных сценариев, стоит учесть:

Кэширование и дедупликацию входных данных (чтобы использовать цену на кэшируемый ввод, где это возможно).
Инжиниринг подсказок для сжатия контекста и избегания избыточных токенов.
Стратегии батчирования и пост‑обработку, минимизирующие дорогую генерацию вывода.
Мониторинг использования режимов рассуждения, поскольку более глубокие режимы могут нести более высокую вычислительную стоимость.

Сравнение: GPT-5.4 vs GPT-5.3

Где GPT-5.4 лучше GPT-5.3

Глубина рассуждений и оркестрация инструментов: 5.4 Thinking явно настроена превосходить 5.3 в многошаговых рассуждениях и агентных сценариях. Это видно в бенчмарках веб/десктоп‑взаимодействия и метриках успеха агентов.
Ёмкость контекста: предложение 1M токенов в 5.4 — заметный технический шаг вперёд по сравнению с 5.3 в плане доступности через API, открывая новые классы задач в одной сессии.
Рост производительности в доменах: ранние цифры OpenAI и сторонние отчёты указывают на улучшения на юридических и документных бенчмарках, где помогают длинный контекст и специализированная настройка.

Компромиссы и где 5.3 может быть предпочтительнее

Лёгкие разговорные сценарии: GPT-5.3 Instant остаётся оптимизированной для быстрых и экономичных диалогов; организациям, которым важны минимальные задержки/стоимость для коротких чатов, она может подойти лучше.
Стабильность метрик безопасности: некоторые оценки по здоровью и «hard»-наборы показали небольшое снижение у 5.4 по сравнению с 5.2 в отчётах OpenAI; компаниям в чувствительных регулируемых областях следует валидировать модель на собственных наборах оценивания перед масштабным внедрением.

Сценарии использования и отраслевые последствия

Сочетание глубоких рассуждений, длинной «памяти» контекста и использования инструментов в GPT-5.4 открывает ряд практических и стратегических возможностей.

1. Профессиональные услуги и консалтинг

Фирмы, создающие длинные материалы (например, юридические записки, многостраничные консалтинговые отчёты, пакеты due diligence для M&A), могут держать целые документы и датасеты в контексте, обеспечивая согласованный кросс‑документный синтез, автоматизированный контроль качества и генерацию исполнительных резюме без ручной склейки фрагментов. Победы в бенчмарках APEX-Agents соответствуют этой позиции.

2. Разработка ПО и рассуждение по кодовым базам

Более длинный контекст означает, что один вызов модели может включать целые репозитории или длинные трассы логов. Улучшения на бенчмарках SWE у GPT-5.4 указывают на лучшую работу в отладке, рефакторинге и ревью кода — особенно в сочетании с Pro для устойчивых нагрузок.

3. Автономные агенты и корпоративная автоматизация

Агентные системы, работающие через инструменты (таблицы, тикет‑системы, веб‑интерфейсы), выигрывают от улучшенного выбора инструментов, снижения накладных расходов по токенам для агентных рабочих процессов и улучшенного сохранения долгосрочного состояния. Это делает GPT-5.4 привлекательной для корпоративных конвейеров автоматизации и «ассистентов, которые действуют» в нескольких системах.

Суть — что меняет GPT-5.4

GPT-5.4 представляет прагматичный и ориентированный на возможности шаг вперёд к моделям, способным к длинным многодокументным рассуждениям, выполнению агентных рабочих процессов с большей надёжностью и масштабированию в профессиональные пайплайны через контракты Pro. Для организаций с длинным горизонтом и зависимостью от инструментов GPT-5.4 — это качественный скачок в потенциальной продуктивности.

Разработчики могут получить доступ к GPT-5.4, GPT-5.4-pro и GPT 5.3 Chat через CometAPI уже сейчас. Чтобы начать, изучите возможности модели в Playground и обратитесь к руководству по API за подробными инструкциями. Перед доступом убедитесь, что вы вошли в CometAPI и получили ключ API. CometAPI предлагает цену значительно ниже официальной, чтобы помочь вам с интеграцией.

Готовы начать?→ Sign up fo GPT-5.4 today !

Если хотите получать больше советов, гайдов и новостей об ИИ, подписывайтесь на нас в VK, X и Discord!