OpenAI’s GPT-5.4 (выпущена 5 марта 2026 г.) и Anthropic’s Claude Sonnet 4.6 (выпущена 17 февраля 2026 г.) представляют два конкурирующих подхода к одному и тому же рынку: модели с большим контекстом и агентными возможностями, оптимизированные для интеллектуальной работы, программирования и длинных, многошаговых рабочих процессов. Обе поддерживают контекстные окна на миллион токенов (в бета-версии), но делают разные компромиссы в цене, эффективности по токенам и направлениях инженерных усилий.
- GPT-5.4 позиционируется как фронтир-модель OpenAI для профессиональной работы: она объединяет рассуждение, программирование (линейка Codex) и нативные способности к использованию компьютера/агентам; OpenAI сообщает о среднем результате 87.3% на бенчмарке моделирования таблиц для задач младших инвестиционных банкиров. Также доступен режим «Thinking», который показывает планы «на лету» во время многошагового рассуждения.
- Claude Sonnet 4.6 — это модель среднего уровня от Anthropic, получившая крупное обновление возможностей — целенаправленно нацеливаясь на производительность уровня Opus при ценах класса Sonnet. По сообщениям, Sonnet 4.6 достигает ~79.6% на SWE-bench (кодинг), демонстрирует высокие показатели в инструментах/агентах (OSWorld, варианты Terminal) и теперь является моделью по умолчанию для многих продуктов Anthropic.
Одновременное использование моделей GPT-5.4 и Claude 4.6 требует переключения между разными провайдерами и высоких затрат у каждого. Однако CometAPI решает эту проблему. С одним API-ключом вы можете переключаться между обеими моделями одновременно и платить только за использованные токены, без подписки.
What is GPT-5.4?
GPT-5.4 — это инкрементальный фронтир-релиз в области рассуждения от OpenAI, ориентированный на профессиональную интеллектуальную работу, развернутый в ChatGPT (как «GPT-5.4 Thinking»), API и Codex. OpenAI позиционирует его как первую основную модель рассуждения, унаследовавшую фронтир-возможности программирования из их линейки GPT-5.3-Codex, с улучшенным использованием компьютера, поиском инструментов, сниженными галлюцинациями и экспериментальной поддержкой 1M-токенов в Codex. В API доступна как gpt-5.4 (и gpt-5.4-pro для более высокой производительности).
Key product features (what changed vs GPT-5.2 / 5.3)
- Upfront plan-of-thinking: GPT-5.4 может предоставлять и показывать предварительный план своих рассуждений, чтобы пользователи могли корректировать ход ответа — улучшение рабочего процесса для длинных задач и многошаговых результатов.
- Tool search & improved tool integration: лучший поиск коннекторов и более плавное использование инструментов агентами в разных инструментах/файлах.
- Token efficiency & speed: OpenAI утверждает, что GPT-5.4 более эффективна по токенам и быстрее на единицу рассуждений, чем GPT-5.2, то есть для достижения того же ответа требуется меньше токенов (что дает выгоду по стоимости и задержке во многих рабочих процессах).
- Context window experimentation: Codex включает экспериментальную поддержку окна контекста на 1M токенов (флаг API / экспериментальная конфигурация). В ChatGPT окна контекста на момент запуска остаются стандартными (не 1M); в Codex/Dev-путях возможны более широкие контексты.
Measured strengths and OpenAI’s evidence
OpenAI опубликовала набор результатов бенчмарков для GPT-5.4, показывающих:
- GDPval (профессиональные задачи): GPT-5.4 достигает 83.0% (выигрыши или ничьи против профессиональных baseline’ов) — позиционируется как новый SoTA в оценках OpenAI GDPval.
- Coding (SWE-Bench Pro): GPT-5.4 показывает 57.7% на SWE-Bench Pro (публично сообщаемый вариант бенчмарка кодинга от OpenAI). GPT-5.4 также демонстрирует существенные выгоды на внутренних задачах по моделированию в таблицах (средний балл 87.3% против 68.4% у GPT-5.2).
- Tool/Browse performance: OpenAI сообщает BrowseComp 82.7% для GPT-5.4, демонстрируя улучшенный веб-ресерч и извлечение с поддержкой инструментов.
- Factuality: по данным OpenAI, отдельные утверждения GPT-5.4 на 33% менее склонны быть ложными, а полные ответы на 18% реже содержат какую-либо ошибку по сравнению с GPT-5.2 на деперсонифицированном наборе пользовательских запросов. Это нетривиальное улучшение для производственной документации и рабочих процессов в юридической/финансовой сферах.
What is Claude Sonnet 4.6?
Claude Sonnet 4.6 от Anthropic — поколенческое обновление уровня Sonnet: Sonnet — это «рабочая лошадка» среднего уровня, сочетающая возможности и стоимость. Sonnet 4.6 стремится обеспечить интеллект уровня Opus на многих задачах (Opus — премиальная линейка Anthropic), с поддержкой контекста в 1M токенов (бета/оговорки по доступности) и значительными улучшениями в устойчивости агентного поведения, понимании документов и кодинге. Anthropic сделала Sonnet 4.6 моделью по умолчанию для claude.ai и Claude Cowork без повышения цены Sonnet.
Key product/features
- Hybrid reasoning + agentic reliability: Sonnet 4.6 улучшает следование инструкциям, надежность инструментов и адаптивные режимы мышления, применяемые в агентных пайплайнах. Это повышает производительность на многошаговых рабочих процессах и в оркестрации нескольких агентов (компакция контекста + субагенты).
- 1M token context (beta): Anthropic поддерживает контекст 1M для ряда внутренних задач и документов и сообщает результаты как для публичных API-вариантов <1M, так и для внутренних оценок >1M — с методами сжатия контекста, расширяющими эффективные возможности сверх «сырого» окна контекста.
- Pricing continuity: Sonnet 4.6 сохранила прежние цены Sonnet — $3 / 1M входных токенов и $15 / 1M выходных токенов, оставаясь привлекательной для массового продакшен-использования.
Measured strengths and Anthropic’s evidence
Anthropic опубликовала подробную system card Sonnet 4.6 и пост в блоге с внутренними и сторонними оценками:
- SWE-bench Verified (кодинг): Sonnet 4.6 — 79.6% по данным Anthropic на SWE-bench Verified — очень сильная на реальных задачах разработчика и тестах по закрытию GitHub-issues. (Примечание: варианты SWE от Anthropic и SWE-Bench Pro от OpenAI не обязательно идентичны по составу — оговорка ниже.)
- BrowseComp: Sonnet 4.6 достигает 74.01% в тесте BrowseComp для одного агента и 82.07% при оркестрации нескольких агентов (через сжатие контекста и субагенты) — демонстрируя, что многоагентные настройки Sonnet на практике могут соответствовать или превосходить результаты BrowseComp у конкурентов для одиночного агента. Anthropic также отмечает выгоды от масштабирования вычислений во время инференса.
Quick Comparison: GPT-5.4 vs Claude Sonnet 4.6
Ниже приведено сравнение основных технических характеристик обеих моделей.
| Feature | GPT-5.4 | Claude Sonnet 4.6 |
|---|---|---|
| Developer | OpenAI | Anthropic |
| Release | March 2026 | February 2026 |
| Context Window | ~1.05M tokens | Up to ~1M tokens |
| Maximum Output | ~128K tokens | ~128K tokens |
| Modalities | Text, image, computer interaction | Text, image |
| Agent Capability | Native computer use | Tool-based automation |
| Architecture Focus | General AI agent | Safe reasoning AI |
| Best For | automation & agents | coding & reasoning |
| Reasoning style | chain-of-thought planning | adaptive reasoning |
GPT-5.4 фокусируется на агентной автономии, тогда как Claude Sonnet 4.6 подчеркивает структурированные рассуждения и безопасное развертывание.
Feature and technical comparison
1. Context window (how much the model can “see” at once)
- GPT-5.4: публичные заметки OpenAI и сообщения прессы указывают поддержку очень больших окон контекста (OpenAI заявляла до 1M токенов в определенных вариантах и интеграциях), с продуктовыми уровнями, где контекст обменивается на задержку и стоимость. Ранние обзоры предполагают и предложение на 400k контекста в обычных dev-путях, и более высокие бета-окна для Pro/Enterprise.
- Claude Sonnet 4.6: Anthropic явно рекламирует бета-поддержку 1 млн токенов контекста в линейке Sonnet/Opus 4.6, делая долгосрочные рассуждения ключевой целью дизайна. Основной тезис семьи Sonnet — стойкая chain-of-thought над длинными документами и следами работы агентов.
Practical effect: Когда задача — рассуждение по нескольким файлам кода, месячные юридические контракты или «озера» неструктурированного текста, размер окна контекста существенно повышает точность, снижает объем ручной инженерии извлечения и позволяет вести диалоги с отсылками к длинной истории. Но большие окна несут инженерные компромиссы — более долгие задержки, более высокую стоимость инференса и сложность аудита.
2. Native computer use & agent capabilities
- GPT-5.4: одна из ключевых возможностей — «встроенное использование компьютера»: модель может генерировать код для взаимодействия с хост-ОС или приложениями (через Playwright и похожие тулчейны), отдавать команды UI по снимкам экрана и оркестрировать многошаговую автоматизацию. OpenAI описывает это как включение автономных агентов, которые умеют запускать софт, а не только писать код.
- Claude Sonnet 4.6: Sonnet 4.6 улучшает агентное планирование и устойчивость: более длинное планирование по горизонту задач, лучшее управление внутренним состоянием и улучшенный выбор инструментов. Anthropic подчеркивает надежность агента (сохранение многошаговых рабочих процессов), а не только «сырую» автоматизацию.
Practical effect: Для рабочих процессов с сильной автоматизацией (например, «собрать данные, проанализировать, написать отчет, создать тикет») ориентация GPT-5.4 на нативное использование компьютера может ускорить прототипирование агентов. Акцент Sonnet 4.6 на вдумчивом планировании может снизить отказы в длинных агентных цепочках — полезно там, где важны аудит и пошаговая корректность.

GPT-5.4 на переднем крае обрабатывает скриншоты, ввод мыши и клавиатуры и многошаговые процессы. Это одно из важнейших различий, обсуждаемых в этой статье, для операций, тестирования, автоматизации браузера и межприложенческих задач.
3. Coding & software engineering
- GPT-5.4: обновления для Codex и «/fast mode» для ускорения пропускной способности токенов и обратной связи разработчика; позиционируется как более сильная на многошаговых задачах разработки и интеграциях с платформами вроде GitHub Copilot и VS Code. Ранние интеграции показывают, что Copilot включает помощь GPT-5.4 во всех основных IDE.
- Claude Sonnet 4.6: Anthropic делает упор на сжатие многодневных проектов до часов, улучшение отладки, code review и самокоррекцию. Также заявляется лучшее обращение с большими кодовыми базами и меньше галлюцинированных API в модульных тестах.
Practical effect: Обе модели значительно ускоряют рабочие процессы разработчика. Выбор зависит от интеграции (ваш стек, Copilot vs Anthropic SDK), задержки/стоимости в масштабе и того, какая модель лучше соответствует вашим ожиданиям по корректности в противоборных или safety-критичных условиях.
4. Knowledge work, documents, and office productivity
- GPT-5.4: OpenAI нацелила GPT-5.4 на документы, таблицы и презентации; компания развернула интеграции ChatGPT для Excel и Sheets, позволяющие модели выполнять сложные задачи финансового моделирования. Посыл: дать аналитикам инструменты для автоматизации трехформатных моделей, извлечения структурированных таблиц и генерации слайдов напрямую из сырых данных.
- Claude Sonnet 4.6: Anthropic подчеркивает долгое контекстное суммирование и планирование для интеллектуальной работы — лучшее удержание многокомпонентных аргументов на длинных документах и формирование структурированных выводов для юридических, исследовательских и политических задач.
Practical effect: Если вашей компании нужны автоматизация в таблицах и плотные интеграции с пакетами Microsoft/Google, заявленные надстройки OpenAI ускоряют внедрение. Если же нужен форензический анализ длинных юридических или исследовательских текстов, заявленные способности Sonnet в длинном контексте выглядят убедительно.
5. Multimodal support
- GPT-5.4: позиционируется прежде всего как текст-ориентированная модель с надежной обработкой документов и таблиц; поддержка входа изображений отмечена в некоторых вариантах серии GPT-5, но акцент GPT-5.4 — на тексте + интеграциях инструментов (и функциях Codex для программного использования инструментов).
- Claude Sonnet 4.6: Anthropic акцентирует текст, кодинг и агентное планирование. Sonnet 4.6 описывается как высокоспособная в «computer use» (симулированные взаимодействия с GUI, автоматический вызов инструментов) и долгосессионном планировании; мультимодальность менее на первом плане, чем сила в рассуждении/агентах.
Practical takeaway: Для рабочих процессов со смешанными медиа (изображения + текст) стоит проверять поддержку модальностей в конкретном уровне API, который вы планируете использовать. Для тексто-центричных, многофайловых и табличных сценариев обе модели приоритезируют кодировки и стратегии компакции, делающие длинный контекст практичным.
Side-by-side: capability and benchmark comparison
Ниже — краткие, сопоставимые точки данных из опубликованных страниц вендоров и system card’ов. Основные оговорки включены.
Browse / web-research (BrowseComp)
- GPT-5.4 (OpenAI) — 82.7% BrowseComp. (OpenAI: BrowseComp 82.7% в материалах релиза GPT-5.4.)
- Claude Sonnet 4.6 (Anthropic) — 74.01% для одного агента; 82.07% BrowseComp при многоагентной оркестрации (через сжатие контекста и субагенты; Anthropic приводит оба значения и объясняет преимущество многоагентного подхода). Anthropic также сообщает о масштабировании вычислений во время инференса (например, 64.69% при 1M выборочных токенов с ростом к 74% при большем общем количестве выборочных токенов).
Coding and developer work (SWE/Terminal)
SWE-стиль тестов: Anthropic сообщает, что Sonnet 4.6 достигает 79.6% на SWE-Bench Verified (их проверенный, верифицированный людьми поднабор). OpenAI сообщает, что GPT-5.4 — 57.7% на SWE-Bench Pro (публичный вариант от OpenAI). Эти результаты показывают очень сильную Sonnet на выбранном Anthropic варианте SWE. Важная оговорка: наборы SWE и протоколы оценки у вендоров различаются; прямое численное сравнение стоит трактовать осторожно.
Professional / knowledge work (GDPval / GDPval-AA / OfficeQA)
- OpenAI (GPT-5.4) — GDPval 83.0% (метрика OpenAI GDPval по 44 профессиям; OpenAI интерпретирует это как соответствие или превосходство над отраслевыми профессионалами в 83% парных сравнений). OpenAI также сообщает о очень сильных приростах в таблицах/презентациях (например, внутренние задачи IB: средний балл 87.3% vs 68.4% у GPT-5.2).
- Anthropic (Sonnet 4.6) — Anthropic сообщает о высоких результатах на внутренних Finance/OfficeQA и Real-World Finance; Sonnet соответствует Opus 4.6 на OfficeQA и показывает высокий процент завершения задач во внутренних финансовых оценках; Anthropic приводит 89.9% на GPQA Diamond и другие высокие показатели на доменных тестах. Это сильные сигналы высокой пригодности Sonnet для задач с корпоративными документами.
Data-backed comparison table
| Dimension | GPT-5.4 (OpenAI) | Claude Sonnet 4.6 (Anthropic) |
|---|---|---|
| BrowseComp (vendor reported) | 82.7% (base) / 89.3% (Pro, some settings). | 74.01% (single) → 82.07% (multi-agent). |
| Coding (vendor VAR) | SWE-Bench Pro ~57.7% (OpenAI reported). | SWE-bench Verified ~79.6% (Anthropic reported). |
| Pricing (input/output per 1M tokens) | ~$2.50 / $15 (base list examples). | $3 / $15; strong caching & batch savings. |
| 1M token context | Experimental via Codex/dev; ChatGPT rollout varies. | 1M context beta + compaction strategies. |
| Safety posture | Factuality improvement (↓33% false claims vs GPT-5.2). Balanced refusal/completion. | Highly conservative refusals on many safety slices (system card numbers). |
Pricing Comparison
Цена — один из важнейших факторов для организаций, внедряющих ИИ в масштабе.
API Pricing
| Pricing | GPT-5.4 | Claude Opus 4.6 |
|---|---|---|
| Input tokens | $2.50 / 1M | $15 / 1M |
| Output tokens | $3/ 1M | $15 / 1M |
GPT-5.4 чуть дешевле по входным токенам.
Эта разница становится значимой для высокообъемных задач, таких как:
- корпоративная автоматизация
- конвейеры анализа данных
- массовая генерация кода
Subscription Pricing
Обе платформы предлагают схожие уровни подписок.
| Plan | ChatGPT | Claude |
|---|---|---|
| Standard | $20/month | $20/month |
| Premium | $200/month | $200/month |
На уровне подписок ценовой паритет означает, что реальная разница в стоимости проявляется прежде всего в использовании API.
Looking for cost-effectiveness: Access GPT-5.4 and Opus 4.6 via CometAPI.
Если вашему рабочему процессу нужны одновременно GPT-5.4 и Claude 4.6 (каждая со своими особенностями), оплачивать разных вендоров по отдельности может быть дорого и неудобно. Здесь стратегически помогает мульти-модельная платформа агрегации CometAPI.
Философия CometAPI проста: вместо поддержания множества официальных аккаунтов для сравнения результатов пользователи могут получить доступ к ведущим моделям на одной платформе, быстро переключаться между ними и оценивать рабочие процессы бок о бок. Также предлагается скидка 20% на API и оплата по мере использования без подписки.
Strengths and Weaknesses
Where GPT-5.4 Wins
Преимущества:
- превосходные возможности автоматизации
- лучший кодинг в терминале
- более низкая стоимость API
- более сильная производительность в задачах интеллектуальной работы
- более широкий общий интеллект
Лучше всего для:
- стартапов
- систем автоматизации
- инструментов для разработчиков
- исследовательских ассистентов
Where Claude Opus 4.6 Wins
Преимущества:
- более глубокие рассуждения
- лучшие показатели на бенчмарках по программированию
- лучшая выборка из длинного контекста
- инструменты для многоагентного взаимодействия
Лучше всего для:
- команд корпоративной разработки ПО
- инфраструктурной инженерии
- исследовательских сред
The Future: Multi-Model Workflows
Формируется важный отраслевой тренд.
Вместо выбора одной модели многие команды теперь одновременно используют несколько моделей.
Пример рабочего процесса:
- GPT-5.4 → автоматизация и анализ данных
- Claude Opus 4.6 → глубокий кодинг и архитектура
- другие модели → специализированные задачи
Такая архитектура маршрутизации моделей позволяет командам максимизировать сильные стороны и минимизировать слабые.
Final Verdict
И GPT-5.4, и Claude Sonnet 4.6 — одни из самых мощных ИИ-моделей 2026 года. GPT-5.4 превосходит в агентной автоматизации и интегрированных рабочих процессах, тогда как Claude Sonnet 4.6 предлагает эффективные, масштабируемые рассуждения с конкурентными ценами.
Разработчики уже сейчас могут получить доступ к GPT-5.4, GPT-5.4-pro и Claude Sonnet 4.6 через CometAPI. Чтобы начать, изучите возможности моделей в Playground и обратитесь к руководству по API за подробными инструкциями. Перед доступом убедитесь, что вы вошли в CometAPI и получили API-ключ. CometAPI предлагает цены значительно ниже официальных, чтобы помочь вам с интеграцией.
Ready to Go?→ Sign up fo GPT-5.4 and Claude 4.6 today !
Если вы хотите больше советов, гайдов и новостей об ИИ, подписывайтесь на нас в VK, X и Discord!
%20.webp&w=3840&q=75)