Comparação de preços das APIs de LLM em 2026: GPT-5.5, Claude Sonnet 4.6, Gemini 3.5 Flash e DeepSeek V4

A precificação é a decisão individual mais consequencial na escolha de um LLM de fronteira, e também é a dimensão em que a maioria das comparações publicadas fica desatualizada em menos de um trimestre. Este artigo corta caminho nisso. Abaixo está uma visão atualizada e com fontes dos preços de tokens de entrada e saída nos quatro modelos que respondem pela maior parte do tráfego de modelos de fronteira em produção em 2026 (GPT-5.5 da OpenAI, Claude Sonnet 4.6 da Anthropic, Gemini 3.5 Flash do Google e DeepSeek V4), junto com os mecanismos que mudam significativamente sua fatura em escala: cache de prompt, processamento em lote e sobretaxas de contexto longo.

A peça gira em torno de duas perguntas. Primeiro: a preço de tabela, quanto custa cada modelo por milhão de tokens, e como as taxas cotadas se comparam nas entradas e saídas que realmente determinam a fatura de produção? Segundo: quando você aplica uma carga de trabalho representativa (100 milhões de tokens por mês, 80% de entrada e 20% de saída, com taxas de acerto de cache realistas), qual é a fatura mensal em dólares em cada modelo? A primeira resposta estabelece a tabela de preços; a segunda mostra no que essa tabela se transforma ao tocar um padrão real de produção.

Leitura rápida: Entre os quatro modelos de fronteira, os preços de tabela variam em aproximadamente duas ordens de grandeza. DeepSeek V4 é o mais barato, a $0.435 por milhão de tokens de entrada; Claude Opus 4.7 é o mais caro, a $5.00. O formato da sua carga de trabalho, particularmente sua taxa de acerto de cache e a relação entrada/saída, muda qual modelo é o mais barato na prática, muitas vezes por mais do que a tabela sugere.

Por que uma comparação de preços “maçã com maçã” é mais difícil do que parece

As páginas de preços dos provedores são escritas para os próprios clientes desses provedores, não para alguém avaliando quatro opções lado a lado. O resultado é que compará-las produz três armadilhas persistentes:

Tokens não são os mesmos entre provedores. Claude Opus 4.7 vem com um novo tokenizador que pode produzir até 35% mais tokens para o mesmo texto de entrada do que o Opus 4.6. O tokenizador do Gemini difere do da OpenAI. A tabela de preços é por milhão de tokens, mas a contagem de tokens para o mesmo prompt varia entre provedores, o que significa que a taxa de manchete é apenas uma primeira aproximação do custo relativo.
Camadas de preço para contexto longo criam “penhascos” de custo. A família GPT-5.5 da OpenAI tem taxas separadas para contexto curto e longo que entram em vigor por volta de 270.000 tokens. A Anthropic, por sua vez, mantém a mesma taxa por token em toda a janela de 1M de contexto. Cargas de trabalho que ficam perto desses limiares têm preços muito diferentes daquelas que ficam confortavelmente dentro deles.
Descontos são cumulativos, não separados. Cache de prompt, processamento em lote e faixas de volume específicas do provedor podem cada uma reduzir o custo efetivo dramaticamente, e elas se acumulam. Uma solicitação em lote em cache na Anthropic pode custar tão pouco quanto 5% de uma solicitação padrão sem cache. Uma comparação de preços que ignora esses mecanismos superestima o preço de tabela, às vezes em uma ordem de grandeza.

A comparação abaixo normaliza essas armadilhas onde é possível, e as sinaliza explicitamente onde não é.

A comparação de preços dos LLMs de fronteira em 2026

Todos os valores em dólares americanos por milhão de tokens. Fonte: documentação oficial de preços de cada provedor em maio de 2026.

Modelo	Entrada	Saída	Entrada em cache	Lote (50% de desconto)	Janela de contexto	Sobretaxa de contexto longo
GPT-5.5	$5.00	$30.00	$0.50	$2.50 / $15.00	1M	Sim (~270K)
Claude Sonnet 4.6	$3.00	$15.00	$0.30	$1.50 / $7.50	1M	Não
Claude Opus 4.7	$5.00	$25.00	$0.50	$2.50 / $12.50	1M	Não
Gemini 3.5 Flash	$1.50	$9.00	$0.15	$1.00 / $6.00	1M	Sim (200K)
DeepSeek V4	$0.435	$0.87	$0.0028	Não oferecido	384K	Não

Como ler a tabela: Entrada em cache é a taxa paga por tokens servidos a partir do cache de prompt (tipicamente prompts de sistema, exemplos few-shot ou prefixos de documentos que se repetem entre solicitações). Lote é a taxa paga para cargas assíncronas com latência de até 24 horas. “Sobretaxa de contexto longo” indica se o provedor aumenta as taxas acima de um limite de comprimento de contexto; para os que aumentam, o limite é indicado entre parênteses.

Onde cada modelo vence

GPT-5.5: o padrão de maior capacidade para raciocínio difícil e trabalho agentivo

GPT-5.5 é o modelo de fronteira da OpenAI para cargas de trabalho profissionais complexas: agentes de código, planejamento em múltiplas etapas, uso de ferramentas de longa duração e análise de documentos em que a profundidade de raciocínio é o requisito dominante. Também é o mais caro entre os grandes modelos de fronteira dos EUA na entrada ($5.00 por milhão) e o mais alto na saída ($30.00 por milhão), o que significa que ele justifica sua posição em cargas em que a alternativa é pagar a taxa principal a um modelo diferente que resolve o problema com menos confiabilidade. GPT-5.5 oferece cache com 90% de desconto, processamento em lote com 50% de desconto, e a precificação de contexto longo entra em vigor por volta de 270K tokens — relevante para bases de código muito extensas ou contextos de repositório completo, mas não para cargas típicas de RAG.

Claude Sonnet 4.6: o padrão recomendado para a maior parte do tráfego de produção

Sonnet 4.6 é o modelo recomendado da Anthropic para a maioria das cargas de produção, e a relação preço-capacidade é o motivo. A $3 na entrada e $15 na saída por milhão de tokens, fica abaixo do GPT-5.5 em ambas as taxas, oferecendo qualidade quase Opus nas cargas que dominam a maioria dos sistemas de produção: codificação, análise, pipelines de RAG, chat voltado ao cliente e geração de saída estruturada. A característica de preço distintiva do Sonnet é que a janela completa de 1M de contexto está disponível a taxas padrão (não há sobretaxa de contexto longo), o que o torna a opção crível mais barata para cargas que ocasionalmente precisam ingerir documentos muito longos ou repositórios completos. O cache de prompt reduz a entrada em cache para 10% do padrão, o que é decisivo para qualquer carga com prompt de sistema estável.

Gemini 3.5 Flash: o flagship mais agressivamente precificado para trabalho de contexto curto

Gemini 3.5 Flash é o modelo flagship de um grande provedor dos EUA mais barato no preço bruto de API, a $1.50 na entrada e $9.00 na saída por milhão de tokens. Para a maior parte do tráfego de produção, essa é a faixa de preço relevante, e ela subcota materialmente tanto o GPT-5.5 quanto o Claude Opus 4.7. Preço mais alto do que os modelos Flash anteriores leva a custos gerais maiores em cenários agentivos intensivos em tokens (custo no Intelligence Index 5,5x vs. Gemini 3 Flash devido a preço + uso). A outra característica distintiva do Gemini é a camada gratuita genuína no Google AI Studio, útil para protótipos mas não relevante para modelos de custo em produção.

DeepSeek V4: dramaticamente mais barato, com ressalvas que valem ser entendidas

DeepSeek V4 lista a $0.435 por milhão de tokens de entrada e $0.87 por milhão de tokens de saída, o que é entre cinco e setenta vezes mais barato do que os modelos de fronteira dos EUA, dependendo da comparação. O modelo é competitivo em muitos benchmarks, particularmente raciocínio e código. As ressalvas merecem ser explícitas: dados são processados na China, o que é inaceitável para algumas cargas reguladas; a qualidade em inglês é forte, mas o modelo é otimizado de forma diferente dos modelos de fronteira dos EUA, e testes diretos head-to-head na sua carga específica são essenciais, não opcionais. Para cargas em que essas ressalvas são aceitáveis, o DeepSeek muda genuinamente a equação de custo.

Uma nota sobre Claude Opus 4.7 vs Sonnet 4.6. Opus está incluído na tabela por completude, mas para a grande maioria do tráfego de produção, Sonnet 4.6 é a escolha econômica melhor. Opus custa 1,67x o Sonnet tanto na entrada quanto na saída, e para cargas em que o Sonnet é suficiente (que são a maioria), esse prêmio não tem benefício compensatório. Recorra ao Opus quando avaliações mostrarem que o Sonnet falha em uma classe específica de tarefa: agentes de codificação altamente autônomos, workflows profissionais de longo horizonte e tarefas em que a capacidade de seguir instruções “na margem” é decisiva.

Exemplo prático: quanto 100 milhões de tokens por mês realmente custam

Preços de manchete por milhão de tokens significam pouco até tocarem uma carga representativa. O exemplo abaixo usa um perfil que se aproxima de um sistema de produção não trivial: 100 milhões de tokens no total por mês, divididos em 80% de entrada (80M) e 20% de saída (20M), com taxa de acerto de cache de 30% na parte de entrada. Esse padrão é amplamente representativo de um chat voltado ao cliente ou uma carga de RAG com prompt de sistema estável e contexto de documentos.

A conta para cada modelo: custo de entrada em cache + custo de entrada sem cache + custo de saída. Entrada em cache é cobrada a 10% do padrão para os provedores que oferecem cache.

Modelo	Entrada em cache (24M)	Entrada sem cache (56M)	Saída (20M)	Fatura mensal total
GPT-5.5	$12.00	$280.00	$600.00	$892.00
Claude Sonnet 4.6	$7.20	$168.00	$300.00	$475.20
Claude Opus 4.7	$12.00	$280.00	$500.00	$792.00

O que isso mostra. Em uma carga representativa, o Sonnet 4.6 custa aproximadamente metade do GPT-5.5. DeepSeek está em um universo de custo inteiramente diferente. Esses são números de preço de tabela; aplicar processamento em lote onde elegível reduz cada total em mais 50% nas entradas e saídas (embora não nos acertos de cache).

Duas observações que vale levar adiante. Primeiro: cache é o mecanismo de maior impacto sob seu controle. O exemplo acima assume taxa de acerto de 30%; elevá-la a 60% (inteiramente alcançável para cargas com prompt de sistema estável) reduz o custo total em aproximadamente mais 25%. Segundo: a relação entrada/saída importa muito. Cargas com muita saída (sumarização, escrita de longos formatos) favorecem provedores com taxas de saída mais baratas, enquanto cargas com muita entrada (análise de contexto longo, grandes recuperações em RAG) favorecem provedores com entrada mais barata e sem sobretaxa de contexto longo.

Os custos ocultos que não estão na página de preços

Preço de tabela é o piso, não o teto. Cinco custos adicionais valem ser orçados explicitamente, porque rotineiramente surpreendem equipes que escalam do protótipo à produção:

Tokens de raciocínio. Modelos com modos de raciocínio estendido (GPT-5.5 Thinking, modo “thinking” do DeepSeek V4) geram conteúdo de raciocínio interno que conta como tokens de saída. Uma chamada de alto esforço de raciocínio em um prompt longo pode gerar 20.000 tokens de raciocínio, o que são $0.60 de custo de saída no GPT-5.5 antes de a resposta visível ser produzida. Faça orçamento por carga, não por solicitação.
Sobretaxas de contexto longo. Tanto o Gemini 3.5 Flash quanto o GPT-5.5 elevam as taxas acima de um limite de comprimento de contexto. Pipelines de RAG que incluem documentos grandes podem, silenciosamente, empurrar cada solicitação para a faixa mais cara sem ninguém notar até a conta chegar. Meça os comprimentos reais de prompt em produção e verifique se você está cruzando o limiar.
Multiplicadores de residência de dados. A Anthropic cobra um prêmio de 10% para inferência apenas nos EUA no Opus 4.7 e no Sonnet 4.6. A OpenAI aplica um acréscimo de 10% nos endpoints com residência de dados para a família GPT-5.4. Para cargas reguladas em que isso importa, considere isso na tabela desde o primeiro dia.
Deriva de verbosidade da saída. Quando uma nova versão do modelo é mais minuciosa por padrão (como se relata que o Opus 4.7 é em comparação ao Opus 4.6), os tokens de saída por resposta podem crescer mesmo se o comprimento da entrada permanecer constante. A saída é precificada 5x mais caro do que a entrada na linha da Anthropic, então um aumento de 20% na verbosidade da saída é um aumento de 20% no principal driver de custo.
Solicitações com falha e repetidas. A maioria dos provedores não cobra por erros 4xx e 5xx, mas cobra por gerações parciais e por tentativas repetidas que têm sucesso na segunda tentativa. Em sistemas de produção com lógica ativa de retry, isso pode adicionar alguns pontos percentuais à fatura. Vale saber ao reconciliar as faturas do provedor com o custo esperado.

Onde a CometAPI se encaixa

Todos esses quatro modelos, além de 500+ outros, estão disponíveis via CometAPI em um único endpoint compatível com a OpenAI, com uma credencial, faturamento unificado e sem configuração de conta por provedor. Os preços na CometAPI são medidos por token nas mesmas taxas por modelo publicadas pelos provedores subjacentes, com créditos comprados antecipadamente e aplicados a qualquer modelo no catálogo. O valor de rotear via CometAPI é operacional, não por token: uma credencial para gerenciar, uma fatura para reconciliar e a capacidade de trocar do GPT-5.5 para o Claude Sonnet 4.6 para o Gemini 3.5 Flash mudando uma única string no seu código.

Há cargas em que o acesso direto ao provedor é a chamada certa. Se você executa uma carga de um único modelo em volume muito alto em um provedor, com um contrato empresarial negociado, a economia unitária de ir direto é melhor. Se sua postura de conformidade exige um relacionamento específico de fornecedor de registro, um agregador complica em vez de simplificar essa conversa. Para a maioria das equipes que executam cargas de produção multimodelos, contudo, a fricção operacional de gerenciar três ou quatro relacionamentos diretos com provedores é, por si só, um custo significativo, um que a tabela de preços não captura.

Experimente a comparação na sua carga. A camada gratuita da CometAPI permite que você rode o mesmo prompt contra GPT-5.5, Sonnet 4.6, Gemini 3.5 Flash e DeepSeek V4 a partir de um único endpoint, sem cadastros separados. Para uma decisão de custo específica da carga, esse exercício de uma hora vale mais do que qualquer comparação de preços já publicada.

Como usar esta comparação

O modelo certo para sua carga depende de qual dimensão da tabela importa mais para o perfil do seu tráfego. Um framework prático de decisão:

Se a profundidade de raciocínio for o gargalo (workflows agentivos, planejamento complexo em múltiplas etapas, as tarefas de codificação mais difíceis), comece com GPT-5.5 ou Claude Opus 4.7. O prêmio é real, mas é merecido nessas cargas.
Se você quer a melhor relação preço-capacidade para tráfego geral de produção, Claude Sonnet 4.6 é o padrão recomendado. Capacidade quase de fronteira, 1M completo de contexto a taxas padrão e suporte forte a cache.
Se você é sensível a custo e sua carga fica abaixo de 200K de contexto, Gemini 3.5 Flash é a opção crível mais barata de classe flagship de um grande provedor dos EUA.
Se sua carga é de alto volume e dominada por preço, e a postura de residência de dados do DeepSeek é aceitável, o V4 muda a equação de custo o suficiente para merecer uma avaliação séria, particularmente para cargas com perfil de lote.

Quer ir além na otimização de custos? Os dados de preços acima são a base para o roteamento: a prática de enviar consultas diferentes a modelos diferentes com base em qual pode lidar com elas ao menor custo. O artigo complementar, Cortando pela Metade os Custos de APIs de LLM: Um Guia de Roteamento de Modelos para Cargas de Trabalho de Produção em 2026, percorre os padrões de roteamento que transformam esta tabela em economias reais na sua fatura mensal.