A precificação é a decisão singular mais consequente na escolha de um LLM de fronteira, e também é a dimensão em que a maioria das comparações publicadas fica desatualizada em menos de um trimestre. Este artigo vai direto ao ponto. Abaixo está uma visão atualizada e com fontes sobre os preços de tokens de entrada e saída nos quatro modelos que respondem pela maior parte do tráfego de modelos de fronteira em produção em 2026 (GPT-5.5 da OpenAI, Claude Sonnet 4.6 da Anthropic, Gemini 3.5 Flash do Google e DeepSeek V4), junto com os fatores que mudam de forma significativa sua conta em escala: cache de prompt, processamento em lote e sobretaxas por contexto longo.
O texto se constrói em torno de duas perguntas. Primeiro: a preço de tabela, quanto cada modelo custa por milhão de tokens, e como as tarifas cotadas se comparam nas entradas e saídas que realmente determinam a conta de produção? Segundo: ao aplicar uma carga de trabalho representativa (100 milhões de tokens por mês, 80% de entrada e 20% de saída, com taxas de acerto de cache realistas), qual é a fatura mensal em dólares para cada modelo? A primeira resposta estabelece a tabela de preços; a segunda mostra o que essa tabela se torna quando encontra um padrão real de produção.
Leitura rápida: Entre os quatro modelos de fronteira, o preço de tabela abrange aproximadamente duas ordens de grandeza. DeepSeek V4 é o mais barato a $0.435 por milhão de tokens de entrada; Claude Opus 4.7 é o mais caro a $5.00. O formato da sua carga de trabalho, especialmente sua taxa de acerto do cache e sua razão entrada/saída, muda qual modelo é mais barato na prática, muitas vezes por mais do que a tabela de preços sugere.
Por que uma comparação de preços “maçã com maçã” é mais difícil do que parece
As páginas de preços dos provedores são escritas para os próprios clientes daquele provedor, não para alguém avaliando quatro opções lado a lado. O resultado é que compará-las produz três armadilhas persistentes:
- Tokens não são os mesmos entre provedores. Claude Opus 4.7 vem com um novo tokenizador que pode produzir até 35% mais tokens para o mesmo texto de entrada do que o Opus 4.6. O tokenizador do Gemini difere do da OpenAI. A tabela de preços é por milhão de tokens, mas a contagem de tokens para o prompt idêntico varia entre provedores, o que significa que a tarifa de destaque é apenas uma primeira aproximação do custo relativo.
- Camadas de preço para contexto longo criam “penhascos” de custo. A família GPT-5.5 da OpenAI tem tarifas separadas para contexto curto e longo que entram em vigor por volta de 270.000 tokens. A Anthropic, por sua vez, mantém a mesma tarifa por token em toda a sua janela de contexto de 1M. Cargas de trabalho que ficam perto desses limiares são tarifadas de forma muito diferente de cargas que ficam confortavelmente dentro deles.
- Descontos são cumulativos, não separados. Cache de prompt, processamento em lote e camadas de volume específicas do provedor podem reduzir drasticamente o custo efetivo, e esses descontos se acumulam. Uma solicitação em lote com cache na Anthropic pode custar apenas 5% de uma solicitação padrão sem cache. Uma comparação de preços que ignora esses fatores superestima o custo de tabela, às vezes por uma ordem de grandeza.
A comparação abaixo normaliza essas armadilhas quando possível e as sinaliza explicitamente quando não é possível.
A comparação de preços dos LLMs de fronteira em 2026
Todos os valores em dólares americanos por milhão de tokens. Com base na documentação oficial de preços de cada provedor em maio de 2026.
| Modelo | Entrada | Saída | Entrada em cache | Lote (50% de desconto) | Janela de contexto | Sobretaxa para contexto longo |
|---|---|---|---|---|---|---|
| GPT-5.5 | $5.00 | $30.00 | $0.50 | $2.50 / $15.00 | 1M | Sim (~270K) |
| Claude Sonnet 4.6 | $3.00 | $15.00 | $0.30 | $1.50 / $7.50 | 1M | Nenhuma |
| Claude Opus 4.7 | $5.00 | $25.00 | $0.50 | $2.50 / $12.50 | 1M | Nenhuma |
| Gemini 3.5 Flash | $1.50 | $9.00 | $0.15 | $1.00 / $6.00 | 1M | Sim (200K) |
| DeepSeek V4 | $0.435 | $0.87 | $0.0028 | Não oferecido | 384K | Nenhuma |
Como ler a tabela: Entrada em cache é a tarifa paga em tokens servidos a partir do cache de prompt (geralmente prompts de sistema, exemplos few-shot ou prefixos de documentos que se repetem entre solicitações). Lote é a tarifa paga para cargas de trabalho assíncronas com latência de até 24 horas. Sobretaxa para contexto longo indica se o provedor aumenta as tarifas acima de um limiar de comprimento de contexto; para os que o fazem, o limiar é indicado entre parênteses.
Onde cada modelo se destaca
GPT-5.5: o padrão de maior capacidade para raciocínio difícil e trabalho orientado a agentes
GPT-5.5 é o modelo de fronteira da OpenAI para cargas de trabalho profissionais complexas: agentes de código, planejamento em múltiplas etapas, uso de ferramentas de longa duração e análise de documentos em que a profundidade de raciocínio é o requisito dominante. É também o mais caro entre os principais modelos de fronteira dos EUA na entrada ($5.00 por milhão) e o mais alto na saída ($30.00 por milhão), o que significa que ele justifica sua posição em cargas nas quais a alternativa é pagar uma tarifa de topo para um modelo diferente que resolve o problema com menos confiabilidade. O GPT-5.5 suporta cache com 90% de desconto, processamento em lote com 50% de desconto, e a precificação para contexto longo entra em vigor por volta de 270 mil tokens, relevante para bases de código muito extensas ou contextos de repositório completo, mas não para cargas típicas de RAG.
Claude Sonnet 4.6: a recomendação padrão para a maior parte do tráfego em produção
Sonnet 4.6 é o modelo recomendado da Anthropic para a maioria das cargas de trabalho em produção, e a relação preço-capacidade é o motivo. A $3 na entrada e $15 na saída por milhão de tokens, ele fica abaixo do GPT-5.5 em ambas as tarifas enquanto entrega qualidade próxima à do Opus nas cargas que dominam a maioria dos sistemas de produção: codificação, análise, pipelines de RAG, chat voltado ao cliente e geração de saída estruturada. A característica distintiva de preço do Sonnet é que a janela completa de 1M de tokens está disponível a tarifas padrão (não há sobretaxa para contexto longo), o que o torna a opção crível mais barata para cargas que ocasionalmente precisam ingerir documentos muito longos ou repositórios completos. O cache de prompt reduz a entrada em cache para 10% do padrão, o que é decisivo para qualquer carga com um prompt de sistema estável.
Gemini 3.5 Flash: o modelo topo de linha mais agressivo em preço para trabalho de contexto curto
Gemini 3.5 Flash é o modelo de classe topo de linha mais barato de um grande provedor dos EUA em preço bruto de API, a $1.50 na entrada e $9.00 na saída por milhão de tokens. Para a maior parte do tráfego de produção, essa é a camada de preço relevante, e ela subcota materialmente tanto o GPT-5.5 quanto o Claude Opus 4.7. O preço mais alto do que os modelos Flash anteriores leva a custos gerais maiores em cenários agentic intensivos em tokens (custo 5,5x no Intelligence Index vs. Gemini 3 Flash devido a preço + uso). Outra característica distintiva do Gemini é a camada gratuita genuína no Google AI Studio, útil para prototipagem, mas não relevante para modelos de custo em produção.
DeepSeek V4: dramaticamente mais barato, com ressalvas que valem ser entendidas
DeepSeek V4 lista a $0.435 por milhão de tokens de entrada e $0.87 por milhão de tokens de saída, o que é entre cinco e setenta vezes mais barato do que os modelos de fronteira dos EUA, dependendo da comparação. O modelo em si é competitivo em muitos benchmarks, especialmente raciocínio e código. As ressalvas merecem ser explícitas: os dados são processados na China, o que é inviável para algumas cargas reguladas; a qualidade em inglês é forte, mas o modelo é otimizado de forma diferente dos modelos de fronteira dos EUA, e testes diretos frente a frente na sua carga específica são essenciais, não opcionais. Para cargas em que essas ressalvas são aceitáveis, o DeepSeek muda genuinamente a equação de custo.
Uma nota sobre Claude Opus 4.7 vs Sonnet 4.6. Opus está incluído na tabela por completude, mas para a grande maioria do tráfego em produção, Sonnet 4.6 é a escolha econômica melhor. Opus custa 1,67x o Sonnet na entrada e na saída, e para cargas em que o Sonnet é suficiente (que são a maioria), esse prêmio não tem benefício compensatório. Recorra ao Opus quando avaliações mostrarem que o Sonnet falha em uma classe específica de tarefa: agentes de código altamente autônomos, fluxos de trabalho profissionais de longo horizonte e tarefas em que a obediência a instruções na margem é decisiva.
Exemplo prático: quanto 100 milhões de tokens por mês realmente custam
Preços de destaque por milhão de tokens significam pouco até que encontrem uma carga de trabalho representativa. O exemplo abaixo usa um perfil que se aproxima de um sistema de produção não trivial: 100 milhões de tokens no total por mês, divididos em 80% de entrada (80M) e 20% de saída (20M), com uma taxa de acerto de cache de 30% na porção de entrada. Esse padrão é amplamente representativo de um chat voltado ao cliente ou de uma carga de RAG com um prompt de sistema e contexto de documentos estáveis.
A matemática para cada modelo: custo da entrada em cache + custo da entrada sem cache + custo da saída. A entrada em cache é faturada a 10% da tarifa padrão para os provedores que oferecem cache.
| Modelo | Entrada em cache (24M) | Entrada sem cache (56M) | Saída (20M) | Fatura mensal total |
|---|---|---|---|---|
| GPT-5.5 | $12.00 | $280.00 | $600.00 | $892.00 |
| Claude Sonnet 4.6 | $7.20 | $168.00 | $300.00 | $475.20 |
| Claude Opus 4.7 | $12.00 | $280.00 | $500.00 | $792.00 |
O que isso mostra. Em uma carga representativa, o Sonnet 4.6 é aproximadamente metade do custo do GPT-5.5. DeepSeek está em um universo de custo completamente diferente. Esses são números de preço de tabela; aplicar processamento em lote onde elegível corta cada total em mais 50% nas entradas e saídas (embora não nos acertos de cache).
Duas observações que valem levar adiante. Primeiro: o cache é o fator único mais impactante sob seu controle. O exemplo acima assume 30% de acerto de cache; eleve para 60% (totalmente alcançável para cargas com um prompt de sistema estável) e o custo total cai em cerca de mais 25%. Segundo: a razão entrada/saída importa muito. Cargas que são pesadas em saída (sumarização, redação de longo formato) tendem a favorecer provedores com tarifas de saída mais baratas, enquanto cargas pesadas em entrada (análise de contexto longo, grandes recuperações em RAG) tendem a favorecer provedores com tarifas de entrada mais baratas e sem sobretaxa para contexto longo.
Os custos ocultos que não estão na página de preços
O preço de tabela é o piso, não o teto. Cinco custos adicionais valem ser previstos explicitamente, porque rotineiramente surpreendem equipes que escalam do protótipo para a produção:
- Tokens de raciocínio. Modelos com modos de raciocínio estendido (GPT-5.5 Thinking, modo de raciocínio do DeepSeek V4) geram conteúdo interno de raciocínio que conta como tokens de saída. Uma única chamada de raciocínio de alto esforço em um prompt longo pode gerar 20.000 tokens de raciocínio, o que é $0.60 de custo de saída no GPT-5.5 antes mesmo da resposta visível ser produzida. Faça o orçamento por carga de trabalho, não por solicitação.
- Sobretaxas por contexto longo. Tanto Gemini 3.5 Flash quanto GPT-5.5 elevam as tarifas acima de um limiar de comprimento de contexto. Pipelines de RAG que incluem documentos grandes podem, silenciosamente, empurrar cada solicitação para a faixa mais alta sem ninguém perceber até a conta chegar. Meça seus comprimentos reais de prompt em produção e verifique se você está ultrapassando o limiar.
- Multiplicadores de residência de dados. A Anthropic cobra um prêmio de 10% para inferência apenas nos EUA no Opus 4.7 e no Sonnet 4.6. A OpenAI aplica um acréscimo de 10% em endpoints com residência de dados para a família GPT-5.4. Para cargas reguladas em que isso importa, considere isso na tabela de preços desde o primeiro dia.
- Deriva de verbosidade da saída. Quando uma nova versão do modelo é mais “minuciosa” por padrão (como se relata que o Opus 4.7 é em comparação ao Opus 4.6), os tokens de saída por resposta podem aumentar mesmo se o comprimento da entrada permanecer constante. A saída custa 5x mais do que a entrada na linha da Anthropic, então um aumento de 20% na verbosidade da saída é um aumento de 20% no principal impulsionador de custo.
- Solicitações com falha e repetidas. A maioria dos provedores não cobra por erros 4xx e 5xx, mas cobra por gerações parciais e por repetições que têm sucesso na segunda tentativa. Em sistemas de produção com lógica ativa de retry, isso pode adicionar alguns pontos percentuais à conta. Vale saber ao reconciliar faturas do provedor com o custo esperado.
Como o CometAPI se encaixa
Todos esses quatro modelos, além de 500+, estão disponíveis por meio do CometAPI em um único endpoint compatível com OpenAI, com uma credencial, faturamento unificado e sem configuração de conta por provedor. A precificação no CometAPI é medida por token nas mesmas tarifas por modelo publicadas pelos provedores subjacentes, com créditos adquiridos antecipadamente e aplicados a qualquer modelo do catálogo. O valor de rotear via CometAPI é operacional, não por token: uma credencial para gerenciar, uma fatura para reconciliar e a capacidade de trocar de GPT-5.5 para Claude Sonnet 4.6 para Gemini 3.5 Flash mudando uma única string no seu código.
Há cargas em que o acesso direto ao provedor é a escolha certa. Se você executa uma carga de trabalho de modelo único em volume muito alto em um provedor, com um contrato corporativo negociado, a economia unitária de ir direto é melhor. Se sua postura de conformidade exige um relacionamento específico de fornecedor de registro, um agregador complica em vez de simplificar essa conversa. Para a maioria das equipes que executam cargas de trabalho de produção multi-modelo, no entanto, a fricção operacional de gerenciar três ou quatro relacionamentos diretos com provedores é, por si só, um custo significativo, que a tabela de preços não captura.
Experimente a comparação na sua carga. A camada gratuita do CometAPI permite executar o mesmo prompt contra GPT-5.5, Sonnet 4.6, Gemini 3.5 Flash e DeepSeek V4 a partir de um único endpoint, sem inscrições separadas. Para uma decisão de custo específica da carga, esse exercício de uma hora vale mais do que qualquer comparação de preços já publicada.
Como usar esta comparação
O modelo certo para sua carga depende de qual dimensão da tabela de preços importa mais para o formato do seu tráfego. Um framework prático de decisão:
- Se a profundidade de raciocínio é o gargalo (fluxos de trabalho orientados a agentes, planejamento complexo em múltiplas etapas, as tarefas de codificação mais difíceis), comece com GPT-5.5 ou Claude Opus 4.7. O prêmio é real, mas justificado nessas cargas.
- Se você quer a melhor relação preço-capacidade para tráfego geral de produção, Claude Sonnet 4.6 é o padrão recomendado. Capacidade quase de fronteira, 1M de contexto completo a tarifas padrão e suporte forte a cache.
- Se você é sensível a custo e sua carga fica abaixo de 200K de contexto, Gemini 3.5 Flash é a opção crível de classe topo de linha mais barata de um grande provedor dos EUA.
- Se sua carga é de alto volume e dominada por preço, e a postura de residência de dados do DeepSeek é aceitável, o V4 muda a equação de custos o suficiente para valer uma avaliação séria, especialmente para cargas com formato de lote.
Quer ir além na otimização de custos? Os dados de preços acima são a base para o roteamento: a prática de enviar consultas diferentes a modelos diferentes com base em qual pode atendê-las ao menor custo. O artigo complementar, Cortando pela Metade os Custos de API de LLM: Um Guia de Roteamento de Modelos para Cargas de Trabalho em Produção em 2026, percorre os padrões de roteamento que transformam essa tabela de preços em economias reais na sua fatura mensal.
