modelos
GPT Image 2 é o modelo de geração de imagens de última geração da OpenAI para criação e edição de imagens rápidas e de alta qualidade. Ele oferece suporte a tamanhos de imagem flexíveis e a entradas de imagem de alta fidelidade. Por Segundo:$0.063
Seedance 2.0 é o modelo de base multimodal de vídeo de próxima geração da ByteDance, focado na geração de vídeos narrativos cinematográficos com múltiplas tomadas. Diferentemente de demos de texto-para-vídeo de tomada única, o Seedance 2.0 enfatiza o controle baseado em referências (imagens, clipes curtos, áudio), a consistência de personagens e de estilo entre tomadas e a sincronização nativa de áudio e vídeo — visando tornar o vídeo com IA útil para fluxos de trabalho criativos profissionais e de pré-visualização.O modelo mais inteligente para agentes e programação Entrada:$2.4/M
Saída:$12/M
Claude Sonnet 4.6 é o nosso modelo Sonnet mais capaz até agora. É uma atualização completa das capacidades do modelo em programação, uso do computador, raciocínio de longo contexto, planejamento de agentes, trabalho de conhecimento e design. Sonnet 4.6 também apresenta uma janela de contexto de 1M tokens em beta.Destaca-se em raciocínio agentivo, trabalho do conhecimento e uso de ferramentas. Entrada:$24/M
Saída:$144/M
Um modelo avançado projetado para lógica extremamente complexa e exigências profissionais, representando o mais alto padrão de raciocínio profundo e capacidades analíticas precisas.Um modelo multimodal carro-chefe de próxima geração que equilibra desempenho excepcional com respostas eficientes, dedicado a fornecer serviços de IA de uso geral abrangentes e estáveis. Por Solicitação:$0.04
GPT Image 2 é o modelo de geração de imagens de última geração da OpenAI para gerar e editar imagens com rapidez e alta qualidade. Ele suporta tamanhos de imagem flexíveis e entradas de imagem de alta fidelidade.Entrada:$0.416/M
Saída:$0.832/M
DeepSeek V4 Pro é um modelo de Mixture-of-Experts em larga escala da DeepSeek, com 1.6T de parâmetros totais e 49B de parâmetros ativados, com suporte a uma janela de contexto de 1M tokens. Ele foi projetado para raciocínio avançado, programação e fluxos de trabalho de agentes de longo horizonte, com desempenho forte em benchmarks de conhecimento, matemática e engenharia de software.Entrada:$0.12/M
Saída:$0.24/M
DeepSeek V4 Flash é um modelo Mixture-of-Experts da DeepSeek, otimizado para eficiência, com 284B de parâmetros no total e 13B de parâmetros ativados, com suporte a uma janela de contexto de 1M tokens. Ele foi projetado para inferência rápida e cargas de trabalho de alto rendimento, mantendo um desempenho sólido em raciocínio e programação.Entrada:$0.24/M
Saída:$0.96/M
MiniMax-M2.7 oferece a mesma inteligência de alto nível da versão padrão — incluindo autoevolução recursiva e produtividade de escritório em nível de especialista —, mas foi projetado para aplicações que exigem latência inferior a um segundo e geração de tokens em alta velocidade. Aproveitando uma arquitetura de backbone de inferência aprimorada, sua velocidade de saída é 66% superior à do modelo padrão (atingindo 100 tps). É a escolha preferida para assistentes de programação interativos, execução de loops de agentes em tempo real e pipelines corporativos de alta taxa de transferência com requisitos rigorosos de tempo de conclusão.Contexto:400,000
Entrada:$0.16/M
Saída:$1/M
O GPT-5.4 nano foi projetado para tarefas em que a velocidade e o custo são os que mais importam, como classificação, extração de dados, ranqueamento e subagentes.Contexto:400,000
Entrada:$0.6/M
Saída:$3.6/M
GPT-5.4 mini traz os pontos fortes do GPT-5.4 para um modelo mais rápido e mais eficiente, projetado para cargas de trabalho de alto volume.Contexto:1,050,000
Entrada:$24/M
Saída:$144/M
Versão do GPT-5.4 que produz respostas mais inteligentes e mais precisas.Entrada:$0.4/M
Saída:$2.4/M
Visão geral das capacidades principais: Resolução: Até 4K (4096×4096), no mesmo nível do Pro. Consistência de imagem de referência: Até 14 imagens de referência (10 objetos + 4 personagens), mantendo a consistência de estilo/personagem. Proporções extremas: Novas proporções 1:4, 4:1, 1:8, 8:1 adicionadas, adequadas para imagens longas, pôsteres e banners. Renderização de texto: Geração de texto avançada, adequada para infográficos e layouts de pôsteres de marketing. Aprimoramento de pesquisa: Google Search + Image Search integrados. Fundamentação: Processo de raciocínio incorporado; prompts complexos são analisados antes da geração.Entrada:$60/M
Saída:$240/M
MiMo-V2.5-Pro é o modelo principal da Xiaomi, destacando-se em capacidades de agentes de propósito geral e em engenharia de software complexa.Entrada:$60/M
Saída:$240/M
MiMo-V2.5 é o modelo nativo totalmente multimodal da Xiaomi. Ele atinge desempenho de agente de nível profissional a aproximadamente metade do custo de inferência, enquanto supera o MiMo-V2-Omni em percepção multimodal em tarefas de compreensão de imagens e vídeos.Entrada:$2.4/M
Saída:$14.4/M
O GPT-5.5 se destaca na escrita de código, na pesquisa online, na análise de dados e nas operações entre ferramentas. O modelo não apenas aumenta sua autonomia ao lidar com tarefas complexas de múltiplas etapas, mas também melhora significativamente as capacidades de raciocínio e a eficiência de execução, mantendo a mesma latência que seu predecessor, marcando um passo importante rumo à automação de escritório automatizada em IA.Contexto:2,000,000
A versão 4.20 do Grok introduz uma arquitetura multiagente (múltiplos agentes especializados coordenados em tempo real), modos de contexto expandidos e melhorias focadas em seguimento de instruções, redução de alucinações e saídas estruturadas/assistidas por ferramentas.Entrada:$0.32/M
Saída:$1.92/M
Qwen 3.6-Plus já está disponível, com capacidades aprimoradas para desenvolvimento de código e maior eficiência em reconhecimento e inferência multimodais, tornando a experiência Vibe Coding ainda melhor.Entrada:$0.76/M
Saída:$3.19998/M
Kimi K2.6 é o modelo mais recente e mais inteligente da Kimi, com capacidades de escrita de código de longo prazo mais robustas e estáveis e habilidades de conformidade com instruções e de autocorreção significativamente aprimoradas, além de oferecer suporte a entrada de texto, imagem e vídeo, modos com e sem raciocínio e tarefas de diálogo e de agente.Entrada:$0.8/M
Saída:$3.2/M
GLM-5.1 (lançado em abril de 2026), projetado especificamente para tarefas autônomas de longo prazo. Ao contrário dos modelos tradicionais otimizados para interações curtas, o GLM-5.1 se destaca em manter o alinhamento com os objetivos, reduzir o desvio estratégico e entregar resultados em nível de produção ao longo de períodos prolongados — até 8 horas de trabalho autônomo contínuo em uma única tarefa complexa. Ele representa um grande salto na engenharia de agentes, deslocando a avaliação da inteligência de uma única interação para a execução sustentada no mundo real.Entrada:$60/M
Saída:$240/M
Claude Mythos Preview é nosso modelo de fronteira mais capaz até o momento e apresenta um
salto impressionante nos resultados em muitos benchmarks de avaliação em comparação com nosso modelo de fronteira anterior, Claude Opus 4.6.Entrada:$0.8/M
Saída:$2.4/M
MiMo-V2-Pro é o modelo fundacional carro-chefe da Xiaomi, com mais de 1T de parâmetros no total e um comprimento de contexto de 1M, profundamente otimizado para cenários agentivos. Ele é altamente adaptável a frameworks de agentes gerais como o OpenClaw. Ele figura entre a elite global nos benchmarks padrão PinchBench e ClawBench, com desempenho percebido que se aproxima ao de Opus 4.6. MiMo-V2-Pro foi projetado para servir como o cérebro de sistemas de agentes, orquestrando fluxos de trabalho complexos, impulsionando tarefas de engenharia em produção e entregando resultados de forma confiável.Entrada:$0.32/M
Saída:$1.6/M
MiMo-V2-Omni é um modelo omni-modal de ponta que processa nativamente entradas de imagem, vídeo e áudio em uma arquitetura unificada. Ele combina forte percepção multimodal com capacidade agêntica — grounding visual, planejamento em múltiplas etapas, uso de ferramentas e execução de código — tornando-o altamente adequado para tarefas complexas do mundo real que abrangem múltiplas modalidades. Janela de contexto de 256K.Contexto:200k
Entrada:$0.96/M
Saída:$3.264/M
GLM-5 Turbo é um novo modelo da Z.ai, projetado para inferência rápida e desempenho robusto em ambientes orientados por agentes, como cenários OpenClaw.Contexto:1,050,000
GPT-5.4 é o modelo de fronteira para trabalho profissional complexo. Reasoning.effort suporta: none (default), low, medium, high e xhigh.Entrada:$1.4/M
Saída:$11.2/M
Modelo GPT-5.3 Instant utilizado no ChatGPTEntrada:$0.2/M
Saída:$1.2/M
Gemini 3.1 Flash-Lite é um modelo Tier-3 altamente eficiente em termos de custo e de baixa latência da série Gemini 3 do Google, projetado para fluxos de trabalho de IA em produção de alto volume, nos quais a taxa de processamento e a velocidade importam mais do que a profundidade máxima de raciocínio. Ele combina uma ampla janela de contexto multimodal com desempenho de inferência eficiente, a um custo inferior ao da maioria dos modelos emblemáticos.Claude Opus 4.6 é o modelo de linguagem de grande porte da classe “Opus” da Anthropic, lançado em fevereiro de 2026. É posicionado como um cavalo de batalha para o trabalho do conhecimento e fluxos de trabalho de pesquisa — aprimorando o raciocínio em contextos longos, o planejamento em múltiplas etapas, o uso de ferramentas (incluindo fluxos de trabalho de software agente) e tarefas de uso do computador, como a geração automatizada de slides e planilhas.