Сравнение цен на API LLM в 2026 году: GPT-5.5, Claude Sonnet 4.6, Gemini 3.5 Flash и DeepSeek V4

Ценообразование — самое значимое решение при выборе фронтирной LLM, и это также та плоскость, по которой большинство опубликованных сравнений устаревает в течение квартала. Эта статья проясняет ситуацию. Ниже — актуальный, подтвержденный источниками обзор цен на токены ввода и вывода у четырех моделей, на которые приходится большинство производственного трафика фронтир‑моделей в 2026 году (OpenAI GPT-5.5, Anthropic Claude Sonnet 4.6, Google Gemini 3.5 Flash и DeepSeek V4), а также рычагов, которые существенно меняют ваш счет на масштабе: кэширование промптов, пакетная обработка и надбавки за длинный контекст.

Материал построен вокруг двух вопросов. Во‑первых: по прайс‑листу, сколько стоит каждая модель за миллион токенов и как указанные ставки соотносятся с вводом и выводом, которые на самом деле формируют продакшн‑счет? Во‑вторых: если применить репрезентативную нагрузку (100 миллионов токенов в месяц, 80% ввод и 20% вывод, с реалистичной долей попаданий в кэш), каков месячный счет в долларах по каждой модели? Первый ответ задает прайс‑лист; второй показывает, во что этот прайс‑лист превращается при соприкосновении с реальным производственным паттерном.

Коротко: По четырем фронтирным моделям цены по прайс‑листу различаются примерно на два порядка. DeepSeek V4 — самая дешевая при $0.435 за миллион токенов ввода; Claude Opus 4.7 — самая дорогая при $5.00. Форма вашей нагрузки, особенно доля попаданий в кэш и соотношение ввода/вывода, меняет то, какая модель оказывается дешевле на практике, зачастую сильнее, чем это следует из прайс‑листа.

Почему сравнение «один к одному» сложнее, чем кажется

Страницы с ценами у провайдеров написаны для клиентов этого провайдера, а не для тех, кто сравнивает четыре варианта бок‑о‑бок. В результате такое сравнение приводит к трем устойчивым ловушкам:

Токены у провайдеров различаются. Claude Opus 4.7 поставляется с новым токенизатором, который может генерировать до 35% больше токенов для одного и того же входного текста, чем Opus 4.6. Токенизатор Gemini отличается от OpenAI. Прайс‑лист — за миллион токенов, но число токенов для идентичного промпта варьируется между провайдерами, поэтому заголовочная ставка — лишь первое приближение относительной стоимости.
Тарифы для длинного контекста создают «ценовые обрывы». Семейство OpenAI GPT-5.5 имеет отдельные ставки для короткого и длинного контекста, которые включаются примерно с 270 000 токенов. Anthropic, напротив, удерживает одинаковую ставку за токен по всему 1M окну контекста. Нагрузки, которые находятся рядом с этими порогами, тарифицируются совсем иначе, чем те, которые комфортно вписываются внутрь.
Скидки складываются, а не отделяются. Кэширование промптов, пакетная обработка и специфические для провайдера объемные уровни могут радикально снижать эффективную стоимость, и они суммируются. Кешированный пакетный запрос у Anthropic может стоить всего 5% от стандартного некешированного. Сравнение цен, игнорирующее эти рычаги, завышает стоимость по прайс‑листу, порой на порядок.

Сравнение ниже нормализует эти ловушки там, где это возможно, и явно помечает их там, где это невозможно.

Сравнение цен на фронтирные LLM в 2026 году

Все цифры — в долларах США за миллион токенов. Источники — официальная документация провайдеров по состоянию на май 2026 года.

Model	Input	Output	Cached input	Batch (50% off)	Context window	Long-context surcharge
GPT-5.5	$5.00	$30.00	$0.50	$2.50 / $15.00	1M	Да (~270K)
Claude Sonnet 4.6	$3.00	$15.00	$0.30	$1.50 / $7.50	1M	Нет
Claude Opus 4.7	$5.00	$25.00	$0.50	$2.50 / $12.50	1M	Нет
Gemini 3.5 Flash	$1.50	$9.00	$0.15	$1.00 / $6.00	1M	Да (200K)
DeepSeek V4	$0.435	$0.87	$0.0028	Не предлагается	384K	Нет

Как читать таблицу: Cached input — ставка, платимая за токены, отданные из кэша промптов (обычно системные промпты, few‑shot примеры или префиксы документов, повторяющиеся между запросами). Batch — ставка для асинхронных нагрузок с задержкой до 24 часов. Long-context surcharge показывает, повышает ли провайдер ставки выше порога длины контекста; для тех, кто повышает, порог указан в скобках.

Где какая модель выигрывает

GPT-5.5: наивысшая по возможностям «дефолтная» модель для сложных рассуждений и агентной работы

GPT-5.5 — фронтирная модель OpenAI для сложных профессиональных задач: кодирующие агенты, многошаговое планирование, длительное использование инструментов и анализ документов, где глубина рассуждений — главный фактор. Это также самая дорогая из крупных фронтирных моделей США по вводу ($5.00 за миллион) и самая дорогая по выводу ($30.00 за миллион), что означает: она оправдывает себя там, где альтернатива — платить флагманскую ставку другой модели, решающей задачу менее надежно. GPT-5.5 поддерживает кэширование с 90% скидкой, пакетную обработку с 50% скидкой, а тарифы для длинного контекста включаются примерно на отметке 270K токенов — актуально для очень больших кодовых баз или контекста в масштабах целого репозитория, но не для типичных RAG‑нагрузок.

Claude Sonnet 4.6: рекомендуемый «дефолт» для большинства продакшн‑трафика

Sonnet 4.6 — рекомендуемая Anthropic модель для большинства производственных нагрузок, и соотношение цена/возможности — причина этому. При $3 за ввод и $15 за вывод за миллион токенов она дешевле GPT-5.5 по обеим ставкам, обеспечивая почти Opus‑качество на задачах, доминирующих в продакшне: программирование, анализ, RAG‑пайплайны, клиентские чаты и генерация структурированного вывода. Отличительная ценовая особенность Sonnet — полное окно контекста 1M доступно по стандартным ставкам (нет надбавки за длинный контекст), что делает ее самым дешевым серьезным вариантом для нагрузок, которым периодически нужно поглощать очень длинные документы или целые репозитории. Кэширование снижает стоимость кешированного ввода до 10% от стандартной — решающий фактор для любой нагрузки со стабильным системным промптом.

Gemini 3.5 Flash: самый агрессивно ценовой «флагман» для короткого контекста

Gemini 3.5 Flash — самая дешевая модель флагманского класса от крупного провайдера США по «сырой» цене API: $1.50 за ввод и $9.00 за вывод за миллион токенов. Для большей части продакшн‑трафика это и есть релевантный ценовой уровень, и он ощутимо дешевле, чем у GPT-5.5 и Claude Opus 4.7. Более высокая цена по сравнению с предыдущими моделями Flash приводит к росту общих затрат в токеноемких агентных сценариях (5,5× стоимость по Intelligence Index против Gemini 3 Flash из‑за цен + использования). Другая отличительная черта Gemini — действительно бесплатный уровень в Google AI Studio, полезный для прототипирования, но не релевантный для продакшн‑экономики.

DeepSeek V4: радикально дешевле, с оговорками, которые важно понимать

DeepSeek V4 имеет прайс $0.435 за миллион токенов ввода и $0.87 за миллион токенов вывода — это в пять–семьдесят раз дешевле, чем у американских фронтирных моделей, в зависимости от сравнения. Сама модель конкурентоспособна на многих бенчмарках, особенно по рассуждениям и коду. Оговорки стоит проговорить явно: данные обрабатываются в Китае, что неприемлемо для ряда регулируемых нагрузок; качество на английском высокое, но модель оптимизирована иначе, чем американские фронтирные, и лобовое тестирование на вашей конкретной задаче — обязательно, а не опционально. Для нагрузок, где эти оговорки приемлемы, DeepSeek действительно меняет экономику.

Заметка о Claude Opus 4.7 vs Sonnet 4.6. Opus включена в таблицу для полноты, но для подавляющего большинства продакшн‑трафика Sonnet 4.6 — экономически лучший выбор. Opus стоит в 1,67 раза дороже Sonnet и по вводу, и по выводу, а для задач, где Sonnet достаточно (а это большинство), эта наценка не имеет компенсирующей выгоды. Берите Opus, когда оценки показывают, что Sonnet проваливается на конкретном классе задач: высокоавтономные кодирующие агенты, длительные профессиональные процессы и кейсы, где решающим является следование инструкциям «на грани».

Пример расчета: сколько на самом деле стоят 100 миллионов токенов в месяц

Заголовочные цены за миллион токенов мало что значат до соприкосновения с репрезентативной нагрузкой. Ниже профиль, близкий к нетривиальной продакшн‑системе: 100 миллионов токенов в месяц, из них 80% ввод (80M) и 20% вывод (20M), с 30% попаданий в кэш по части ввода. Этот паттерн в целом характерен для клиентского чата или RAG‑нагрузки со стабильным системным промптом и контекстом документов.

Формула для каждой модели: стоимость кешированного ввода + стоимость некешированного ввода + стоимость вывода. Кешированный ввод тарифицируется по 10% от стандартной ставки у провайдеров, которые поддерживают кэширование.

Model	Cached input (24M)	Uncached input (56M)	Output (20M)	Total monthly bill
GPT-5.5	$12.00	$280.00	$600.00	$892.00
Claude Sonnet 4.6	$7.20	$168.00	$300.00	$475.20
Claude Opus 4.7	$12.00	$280.00	$500.00	$792.00

Что это показывает. На репрезентативной нагрузке Sonnet 4.6 стоит примерно вдвое дешевле GPT-5.5. DeepSeek — вообще в другом ценовом измерении. Это цены по прайс‑листу; применение пакетной обработки там, где возможно, дополнительно сокращает итог на 50% по вводу и выводу (но не по кэш‑хитам).

Два наблюдения, которые стоит учесть. Во‑первых: кэширование — самый влиятельный рычаг, который вы контролируете. В примере выше предполагается 30% попаданий в кэш; поднимите их до 60% (полностью достижимо для нагрузок со стабильным системным промптом) — и общая стоимость упадет еще примерно на 25%. Во‑вторых: соотношение ввода и вывода очень важно. Нагрузки, где доминирует вывод (рефераты, длинные тексты), склоняются к провайдерам с более дешевым выводом; а нагрузки, где доминирует ввод (анализ длинного контекста, крупные выборки в RAG), — к провайдерам с более дешевым вводом и отсутствием надбавки за длинный контекст.

Скрытые издержки, которых нет на странице цен

Прайс‑лист — это пол, а не потолок. Есть пять дополнительных статей затрат, которые стоит закладывать явно, потому что они регулярно удивляют команды при масштабировании от прототипа к продакшну:

Токены рассуждений. У моделей с расширенными режимами рассуждений (GPT-5.5 Thinking, режим рассуждений DeepSeek V4) генерируется внутреннее содержимое рассуждений, которое считается токенами вывода. Один «высокозатратный по рассуждениям» вызов на длинном промпте может выдать 20 000 токенов рассуждений — это $0.60 стоимости вывода на GPT-5.5 еще до видимого ответа. Бюджетируйте по нагрузкам, а не по запросам.
Надбавки за длинный контекст. И Gemini 3.5 Flash, и GPT-5.5 повышают ставки выше порога длины контекста. RAG‑пайплайны с большими документами могут незаметно загонять каждый запрос в верхний тариф, и это обнаружится лишь по счету. Измеряйте фактическую длину промптов в продакшне и проверяйте, не пересекаете ли вы порог.
Множители за резидентность данных. Anthropic берет 10% надбавку за инференс только в США на Opus 4.7 и Sonnet 4.6. OpenAI применяет 10% надбавку на эндпоинтах резидентности данных для семейства GPT-5.4. Для регулируемых нагрузок, где это важно, учитывайте это в прайс‑листе с первого дня.
Дрейф многословности вывода. Когда новая версия модели «по умолчанию» более обстоятельна (как сообщается, Opus 4.7 по сравнению с Opus 4.6), число токенов вывода на ответ может расти, даже если длина ввода постоянна. У Anthropic вывод стоит в 5 раз дороже ввода, так что 20% рост многословности вывода — это +20% к главному драйверу затрат.
Неудачные и повторные запросы. Большинство провайдеров не тарифицируют 4xx и 5xx ошибки, но тарифицируют частичные генерации и повторы, которые завершились успехом со второй попытки. В продакшн‑системах с активной логикой ретраев это может добавить к счету несколько процентов. Полезно знать, когда вы сверяете счета провайдеров с ожидаемыми затратами.

Как CometAPI вписывается в картину

Все четыре эти модели, плюс 500+ других, доступны через CometAPI на одном эндпоинте, совместимом с OpenAI, с одной парой учетных данных, унифицированным биллингом и без необходимости заводить отдельные аккаунты у каждого провайдера. Тарификация в CometAPI поминутная по токенам по тем же ставкам, что и у базовых провайдеров; кредиты приобретаются заранее и применяются к любой модели из каталога. Ценность маршрутизации через CometAPI — операционная, а не помодульная: одна учетная запись, один счет и возможность переключаться между GPT-5.5, Claude Sonnet 4.6, Gemini 3.5 Flash, меняя одну строку в коде.

Есть нагрузки, где прямой доступ к провайдеру — правильный выбор. Если вы запускаете нагрузку на одной модели с очень большим объемом у одного провайдера и с согласованным корпоративным контрактом, экономика «идти напрямую» лучше. Если ваша комплаенс‑политика требует конкретного «поставщика по договору», агрегатор скорее усложнит, чем упростит этот разговор. Однако для большинства команд, работающих с мультимодельными продакшн‑нагрузками, операционное трение от ведения трех–четырех прямых отношений с провайдерами само по себе является значимой стоимостью, не отраженной в прайс‑листе.

Протестируйте сравнение на вашей нагрузке. Бесплатный уровень CometAPI позволяет прогнать один и тот же промпт через GPT-5.5, Sonnet 4.6, Gemini 3.5 Flash и DeepSeek V4 с одного эндпоинта, без отдельных регистраций. Для решения о стоимости, привязанного к вашей нагрузке, этот час экспериментов стоит дороже любого когда‑либо опубликованного сравнения цен.

Как пользоваться этим сравнением

Правильная модель для вашей нагрузки зависит от того, какая строка прайс‑листа важнее для формы вашего трафика. Практическая схема выбора:

Если глубина рассуждений — узкое место (агентные рабочие процессы, сложное многошаговое планирование, самые трудные задачи по программированию), начните с GPT-5.5 или Claude Opus 4.7. Наценка реальна, но оправдана на этих нагрузках.
Если вам нужно лучшее соотношение цена/возможности для общего продакшн‑трафика, Claude Sonnet 4.6 — рекомендуемый «дефолт». Почти фронтирные возможности, полное контекстное окно 1M по стандартным ставкам и сильная поддержка кэширования.
Если вы чувствительны к стоимости и ваша нагрузка укладывается ниже 200K контекста, Gemini 3.5 Flash — самый дешевый «флагманский» вариант от крупного провайдера США.
Если у вас большой объем и стоимость — определяющий фактор, а политика резидентности данных DeepSeek приемлема, V4 меняет экономику настолько, что заслуживает серьезной оценки, особенно для пакетных нагрузок.

Хотите пойти дальше в оптимизации затрат? Данные о ценах выше — основа для маршрутизации: практики отправки разных запросов в разные модели в зависимости от того, какая справится дешевле. Материал‑компаньон, Как сократить затраты на API LLM вдвое: руководство по маршрутизации моделей для продакшн‑нагрузок в 2026 году, разбирает паттерны маршрутизации, которые превращают этот прайс‑лист в реальную экономию в вашем месячном счете.