Ценообразование — это самый важный фактор при выборе фронтирной LLM, и это же та измеряемая плоскость, по которой большинство опубликованных сравнений устаревают в пределах одного квартала. Эта статья проясняет ситуацию. Ниже — актуальная, ссылаемая картина цен за входные и выходные токены по четырем моделям, на которые приходится большинство продакшен‑трафика фронтир‑моделей в 2026 году (OpenAI GPT-5.5, Anthropic Claude Sonnet 4.6, Google Gemini 3.5 Flash и DeepSeek V4), а также рычаги, которые заметно меняют ваш счет на масштабе: кэширование промптов, пакетная обработка и надбавки за длинный контекст.
Материал построен вокруг двух вопросов. Во‑первых: по прайс‑листу, сколько стоит каждая модель за миллион токенов и как сравниваются заявленные ставки на вход и выход, которые фактически формируют продакшен‑счет? Во‑вторых: если применить репрезентативную нагрузку (100 млн токенов в месяц, 80% входа и 20% выхода, с реалистичными показателями кэша), каким будет ежемесячный счет в долларах по каждой модели? Первый ответ фиксирует тарифную сетку; второй показывает, во что эта сетка превращается при соприкосновении с реальным продакшен‑паттерном.
Кратко: По четырем фронтир‑моделям прайс‑листы различаются примерно на два порядка. DeepSeek V4 — самый дешевый: $0.435 за миллион входных токенов; Claude Opus 4.7 — самый дорогой: $5.00. Конфигурация вашей нагрузки, особенно доля попаданий в кэш и соотношение вход/выход, меняет то, какая модель окажется дешевле на практике, часто сильнее, чем это следует из тарифной сетки.
Почему корректное сравнение цен «один к одному» сложнее, чем кажется
Страницы с ценами провайдеров пишутся для клиентов этого провайдера, а не для сравнения «четыре варианта бок о бок». В результате при сравнении возникают три устойчивые ловушки:
- Токены у провайдеров различаются. Claude Opus 4.7 поставляется с новым токенизатором, который может выдавать до 35% больше токенов для одного и того же входного текста по сравнению с Opus 4.6. Токенизатор Gemini отличается от OpenAI. Тарифная сетка — «за миллион токенов», но количество токенов для идентичного промпта варьируется между провайдерами; значит, заявленная ставка — лишь первое приближение относительной стоимости.
- Тарифы для длинного контекста создают ценовые обрывы. У OpenAI GPT-5.5 существуют отдельные ставки для короткого и длинного контекста, которые начинают действовать примерно с 270 000 токенов. Anthropic, напротив, сохраняет одинаковую ставку за токен во всем окне контекста 1M. Нагрузки, идущие вблизи этих порогов, тарифицируются совсем иначе, чем те, что безопасно укладываются в их пределы.
- Скидки суммируются, а не взаимоисключаются. Кэширование промптов, пакетная обработка и провайдерские объемные уровни по‑отдельности могут драматически снизить эффективную стоимость — и они суммируются. Закэшированный пакетный запрос в Anthropic может стоить всего 5% от стандартного некэшированного запроса. Сравнение цен, игнорирующее эти рычаги, завышает прайс‑лист, иногда на порядок.
Сравнение ниже нормализует эти ловушки там, где это возможно, и явным образом помечает их там, где это невозможно.
Сравнение цен на фронтирные LLM в 2026 году
Все цифры — в долларах США за миллион токенов. Источник — официальная документация по ценам каждого провайдера на май 2026.
| Model | Input | Output | Cached input | Batch (50% off) | Context window | Long-context surcharge |
|---|---|---|---|---|---|---|
| GPT-5.5 | $5.00 | $30.00 | $0.50 | $2.50 / $15.00 | 1M | Да (~270K) |
| Claude Sonnet 4.6 | $3.00 | $15.00 | $0.30 | $1.50 / $7.50 | 1M | Нет |
| Claude Opus 4.7 | $5.00 | $25.00 | $0.50 | $2.50 / $12.50 | 1M | Нет |
| Gemini 3.5 Flash | $1.50 | $9.00 | $0.15 | $1.00 / $6.00 | 1M | Да (200K) |
| DeepSeek V4 | $0.435 | $0.87 | $0.0028 | Не предлагается | 384K | Нет |
Как читать таблицу: Cached input — ставка на токены, отданные из кэша промптов (обычно это системные промпты, few-shot примеры или префиксы документов, повторяющиеся в запросах). Batch — ставка для асинхронных нагрузок с задержкой до 24 часов. Long-context surcharge указывает, повышает ли провайдер ставки сверх порога длины контекста; для тех, кто повышает, порог дан в скобках.
Где какая модель выигрывает
GPT-5.5: наиболее способный дефолт для сложного рассуждения и агентной работы
GPT-5.5 — фронтир‑модель OpenAI для сложных профессиональных нагрузок: кодовые агенты, многошаговое планирование, длительное использование инструментов и анализ документов, где глубина рассуждений — доминирующее требование. Это также самая дорогая из крупных американских фронтир‑моделей по входу ($5.00 за миллион) и самая дорогая по выходу ($30.00 за миллион), что оправдывает ее выбор там, где альтернатива — платить флагманскую ставку другой модели, которая решает задачу менее надежно. GPT-5.5 поддерживает кэширование со скидкой 90%, пакетную обработку со скидкой 50%, а тарифы для длинного контекста включаются примерно на отметке 270K токенов, что актуально для очень больших кодовых баз или контекста всего репозитория, но не для типичных RAG‑нагрузок.
Claude Sonnet 4.6: рекомендуемый дефолт для большинства продакшен‑трафика
Sonnet 4.6 — рекомендуемая модель Anthropic для большинства продакшен‑нагрузок, и причина — соотношение цена/возможности. При $3 за вход и $15 за выход за миллион токенов она стоит ниже GPT-5.5 по обеим ставкам, обеспечивая близкое к Opus качество на задачах, доминирующих в большинстве продакшен‑систем: кодинг, анализ, RAG‑конвейеры, клиентский чат и генерация структурированного вывода. Ключевая особенность цен Sonnet — полное окно контекста 1M доступно по стандартным ставкам (доплаты за длинный контекст нет), что делает ее самым дешевым надежным вариантом для нагрузок, которым иногда нужно поглощать очень длинные документы или целые репозитории. Кэширование промптов снижает стоимость кэшированного входа до 10% от стандартной — решающий фактор для любой нагрузки со стабильным системным промптом.
Gemini 3.5 Flash: самый агрессивно оцененный флагман для короткого контекста
Gemini 3.5 Flash — самая дешевая флагманского класса модель от крупного американского провайдера по «сырому» API‑прайсу: $1.50 за вход и $9.00 за выход за миллион токенов. Для большинства продакшен‑трафика это релевантный ценовой уровень, и он существенно ниже, чем у GPT-5.5 и Claude Opus 4.7. Более высокая цена по сравнению с предыдущими моделями Flash ведет к росту общей стоимости в токеноемких агентных сценариях (5.5x Intelligence Index cost по сравнению с Gemini 3 Flash из‑за цены + использования). Другая заметная особенность Gemini — действительно бесплатный уровень в Google AI Studio, полезный для прототипирования, но нерелевантный для производственных моделей стоимости.
DeepSeek V4: радикально дешевле, с оговорками, которые важно понимать
DeepSeek V4 стоит $0.435 за миллион входных токенов и $0.87 за миллион выходных токенов — то есть от пяти до семидесяти раз дешевле, чем американские фронтир‑модели, в зависимости от сравниваемой. Сама модель конкурентоспособна по многим бенчмаркам, особенно по рассуждению и коду. Оговорки важны: данные обрабатываются в Китае, что для некоторых регулируемых нагрузок неприемлемо; качество английского сильное, но модель оптимизирована иначе, чем американские фронтир‑модели, поэтому прямые тесты на вашей конкретной задаче обязательны, а не опциональны. Для нагрузок, где эти оговорки приемлемы, DeepSeek действительно меняет уравнение стоимости.
Заметка о Claude Opus 4.7 vs Sonnet 4.6. Opus включен в таблицу для полноты, но для подавляющего большинства продакшен‑трафика Sonnet 4.6 — экономически лучший выбор. Opus стоит в 1.67 раза дороже Sonnet и по входу, и по выходу, и для нагрузок, где Sonnet достаточен (а это большинство), эта наценка не имеет компенсирующей выгоды. Обращайтесь к Opus, когда оценки показывают, что Sonnet «сыпется» на конкретном классе задач: высокоавтономные кодовые агенты, долгие профессиональные воркфлоу и задачи, где решающей становится предельная точность следования инструкциям.
Пример расчета: сколько на самом деле стоят 100 млн токенов в месяц
Заголовочные цены «за миллион токенов» мало что значат до соприкосновения с репрезентативной нагрузкой. В примере ниже профиль приближен к нетривиальной продакшен‑системе: 100 млн токенов в месяц, из них 80% — вход (80M) и 20% — выход (20M), с 30% попаданий в кэш по входной части. Такой паттерн в целом характерен для клиентского чата или RAG‑нагрузки со стабильным системным промптом и контекстом документов.
Математика для каждой модели: стоимость кэшированного входа + стоимость некэшированного входа + стоимость выхода. Кэшированный вход тарифицируется по 10% от стандартной ставки у провайдеров, предлагающих кэширование.
| Model | Cached input (24M) | Uncached input (56M) | Output (20M) | Total monthly bill |
|---|---|---|---|---|
| GPT-5.5 | $12.00 | $280.00 | $600.00 | $892.00 |
| Claude Sonnet 4.6 | $7.20 | $168.00 | $300.00 | $475.20 |
| Claude Opus 4.7 | $12.00 | $280.00 | $500.00 | $792.00 |
Что это показывает. На репрезентативной нагрузке Sonnet 4.6 примерно вдвое дешевле GPT-5.5. DeepSeek вообще в другой ценовой вселенной. Это цены по прайс‑листу; применение пакетной обработки там, где возможно, дополнительно сокращает итог на 50% по входу и выходу (но не по кэш‑попаданиям).
Два наблюдения, которые стоит унести с собой. Во‑первых: кэш — самый заметный рычаг, который вы контролируете. Пример выше предполагает 30% попаданий в кэш; поднимите до 60% (полностью достижимо для нагрузок со стабильным системным промптом) — и итоговая стоимость упадет еще примерно на 25%. Во‑вторых: соотношение вход/выход очень важно. Нагрузки с тяжелым выходом (суммаризация, лонгриды) тяготеют к провайдерам с более дешевым выходом, а входо‑тяжелые (анализ длинного контекста, большие RAG‑подборки) — к провайдерам с более дешевым входом и без надбавки за длинный контекст.
Скрытые расходы, которых нет на странице с ценами
Прайс‑лист — это пол, а не потолок. Есть пять дополнительных статей расходов, которые стоит явно закладывать в бюджет, потому что они регулярно удивляют команды при масштабировании от прототипа к продакшену:
- Токены рассуждений. Модели с расширенными режимами рассуждений (GPT-5.5 Thinking, DeepSeek V4 thinking mode) генерируют внутреннее содержимое рассуждений, которое считается выходными токенами. Один «тяжелый» вызов рассуждений на длинном промпте может дать 20 000 токенов рассуждений — это $0.60 выходной стоимости на GPT-5.5 еще до того, как будет порожден видимый ответ. Бюджетируйте по нагрузке, а не по запросу.
- Надбавки за длинный контекст. И Gemini 3.5 Flash, и GPT-5.5 повышают ставки выше порога длины контекста. RAG‑конвейеры с большими документами могут незаметно толкать каждый запрос в повышенный тариф, пока это не проявится в счете. Измеряйте фактические длины промптов в продакшене и проверяйте, не пересекаете ли вы порог.
- Мультипликаторы резидентности данных. Anthropic взимает 10% наценку за inference только в США для Opus 4.7 и Sonnet 4.6. OpenAI применяет 10% надбавку на эндпоинтах резидентности данных для семейства GPT-5.4. Для регулируемых нагрузок, где это важно, учитывайте это в тарифной сетке с первого дня.
- Дрейф многословности выхода. Когда новая версия модели «по умолчанию» более обстоятельна (как reportedly Opus 4.7 по сравнению с Opus 4.6), число выходных токенов на ответ может ползти вверх даже при неизменной длине входа. У Anthropic выход стоит в 5 раз дороже входа, так что 20% рост многословности выхода — это 20% рост доминирующей статьи затрат.
- Сбойные и повторные запросы. Большинство провайдеров не тарифицируют 4xx и 5xx ошибки, но тарифицируют частичные генерации и повторы, которые заканчиваются успешным ответом со второй попытки. В продакшен‑системах с активной логикой ретраев это может добавить несколько процентов к счету. Полезно знать при сверке счетов провайдера с ожидаемой стоимостью.
Как здесь вписывается CometAPI
Все четыре эти модели, плюс 500+ других, доступны через CometAPI на единой совместимой с OpenAI конечной точке, с одним набором учетных данных, унифицированным биллингом и без настройки аккаунтов у каждого провайдера. Цены в CometAPI тарифицируются по токенам по тем же ставкам на модель, что публикуют базовые провайдеры, кредиты покупаются заранее и применяются к любой модели в каталоге. Ценность маршрутизации через CometAPI операционная, а не «за токен»: одни учетные данные для управления, один счет к сверке и возможность переключаться с GPT-5.5 на Claude Sonnet 4.6 или на Gemini 3.5 Flash, изменив одну строку в коде.
Есть нагрузки, где прямой доступ к провайдеру — правильный выбор. Если у вас однопрофильная нагрузка очень большого объема на одном провайдере с согласованным enterprise‑контрактом, юнит‑экономика прямого доступа лучше. Если ваша комплаенс‑позиция требует конкретных отношений с официальным вендором, агрегатор усложнит, а не упростит этот разговор. Для большинства команд, запускающих мульти‑модельные продакшен‑нагрузки, однако, операционное трение управления тремя‑четырьмя прямыми отношениями с провайдерами само по себе — заметная стоимость, которую прайс‑лист не отражает.
Проверьте сравнение на своей нагрузке. Бесплатный уровень в CometAPI позволяет прогнать один и тот же промпт через GPT-5.5, Sonnet 4.6, Gemini 3.5 Flash и DeepSeek V4 с одного эндпоинта, без отдельных регистраций. Для решения по стоимости под конкретную нагрузку этот часовой эксперимент ценнее любого когда‑либо опубликованного сравнения цен.
Как использовать это сравнение
Правильная модель для вашей нагрузки зависит от того, какое измерение тарифной сетки важнее всего для формы вашего трафика. Практическая схема выбора:
- Если глубина рассуждений — узкое место (агентные воркфлоу, сложное многошаговое планирование, самые трудные задачи кодинга), начните с GPT-5.5 или Claude Opus 4.7. Наценка реальна, но оправдана на этих нагрузках.
- Если вам нужно лучшее соотношение цена/возможности для общего продакшен‑трафика, Claude Sonnet 4.6 — рекомендуемый дефолт. Почти фронтирные возможности, полное окно 1M по стандартным ставкам и сильная поддержка кэширования.
- Если вы чувствительны к стоимости и ваш контекст ниже 200K, Gemini 3.5 Flash — самый дешевый надежный флагманский вариант от крупного американского провайдера.
- Если ваша нагрузка — высокообъемная и доминируется ценой, и вас устраивает политика резидентности данных DeepSeek, V4 настолько меняет уравнение стоимости, что заслуживает серьезной оценки, особенно для нагрузок пакетного характера.
Хотите глубже заняться оптимизацией стоимости? Приведенные выше данные о ценах — фундамент для маршрутизации: практики отправки разных запросов разным моделям в зависимости от того, какая из них справится с ними по минимальной стоимости. Сопровождающий материал «Сокращаем стоимость LLM API вдвое: руководство по маршрутизации моделей для продакшен‑нагрузок в 2026 году» разбирает паттерны маршрутизации, которые превращают эту тарифную сетку в реальные сбережения на вашем ежемесячном счете.
