Modelo - Um Acesso à API para 500+ Modelos de IA - CometAPI

Nano Banana 2

Nano Banana 2

Visão geral das capacidades principais: Resolução: Até 4K (4096×4096), no mesmo nível do Pro. Consistência de imagem de referência: Até 14 imagens de referência (10 objetos + 4 personagens), mantendo a consistência de estilo/personagem. Proporções extremas: Novas proporções 1:4, 4:1, 1:8, 8:1 adicionadas, adequadas para imagens longas, pôsteres e banners. Renderização de texto: Geração de texto avançada, adequada para infográficos e layouts de pôsteres de marketing. Aprimoramento de pesquisa: Google Search + Image Search integrados. Fundamentação: Processo de raciocínio incorporado; prompts complexos são analisados antes da geração.

Claude Opus 4.6

Claude Opus 4.6

Claude Opus 4.6 é o modelo de linguagem de grande porte da classe “Opus” da Anthropic, lançado em fevereiro de 2026. É posicionado como um cavalo de batalha para o trabalho do conhecimento e fluxos de trabalho de pesquisa — aprimorando o raciocínio em contextos longos, o planejamento em múltiplas etapas, o uso de ferramentas (incluindo fluxos de trabalho de software agente) e tarefas de uso do computador, como a geração automatizada de slides e planilhas.

Claude Sonnet 4.6

Claude Sonnet 4.6

Claude Sonnet 4.6 é o nosso modelo Sonnet mais capaz até agora. É uma atualização completa das capacidades do modelo em programação, uso do computador, raciocínio de longo contexto, planejamento de agentes, trabalho de conhecimento e design. Sonnet 4.6 também apresenta uma janela de contexto de 1M tokens em beta.

GPT-5.4 nano

GPT-5.4 nano

Contexto:400,000

Entrada:$0.16/M

O GPT-5.4 nano foi projetado para tarefas em que a velocidade e o custo são os que mais importam, como classificação, extração de dados, ranqueamento e subagentes.

GPT-5.4 mini

GPT-5.4 mini

Contexto:400,000

GPT-5.4 mini traz os pontos fortes do GPT-5.4 para um modelo mais rápido e mais eficiente, projetado para cargas de trabalho de alto volume.

Claude Mythos Preview

Claude Mythos Preview

Claude Mythos Preview é nosso modelo de fronteira mais capaz até o momento e apresenta um salto impressionante nos resultados em muitos benchmarks de avaliação em comparação com nosso modelo de fronteira anterior, Claude Opus 4.6.

mimo-v2-pro

mimo-v2-pro

MiMo-V2-Pro é o modelo fundacional carro-chefe da Xiaomi, com mais de 1T de parâmetros no total e um comprimento de contexto de 1M, profundamente otimizado para cenários agentivos. Ele é altamente adaptável a frameworks de agentes gerais como o OpenClaw. Ele figura entre a elite global nos benchmarks padrão PinchBench e ClawBench, com desempenho percebido que se aproxima ao de Opus 4.6. MiMo-V2-Pro foi projetado para servir como o cérebro de sistemas de agentes, orquestrando fluxos de trabalho complexos, impulsionando tarefas de engenharia em produção e entregando resultados de forma confiável.

mimo-v2-omni

mimo-v2-omni

Entrada:$0.32/M

MiMo-V2-Omni é um modelo omni-modal de ponta que processa nativamente entradas de imagem, vídeo e áudio em uma arquitetura unificada. Ele combina forte percepção multimodal com capacidade agêntica — grounding visual, planejamento em múltiplas etapas, uso de ferramentas e execução de código — tornando-o altamente adequado para tarefas complexas do mundo real que abrangem múltiplas modalidades. Janela de contexto de 256K.

MiniMax-M2.7

MiniMax-M2.7

Entrada:$0.24/M

MiniMax-M2.7 oferece a mesma inteligência de alto nível da versão padrão — incluindo autoevolução recursiva e produtividade de escritório em nível de especialista —, mas foi projetado para aplicações que exigem latência inferior a um segundo e geração de tokens em alta velocidade. Aproveitando uma arquitetura de backbone de inferência aprimorada, sua velocidade de saída é 66% superior à do modelo padrão (atingindo 100 tps). É a escolha preferida para assistentes de programação interativos, execução de loops de agentes em tempo real e pipelines corporativos de alta taxa de transferência com requisitos rigorosos de tempo de conclusão.

GLM 5 Turbo

GLM 5 Turbo

Entrada:$0.96/M

Saída:$3.264/M

GLM-5 Turbo é um novo modelo da Z.ai, projetado para inferência rápida e desempenho robusto em ambientes orientados por agentes, como cenários OpenClaw.

GPT-5.4 pro

GPT-5.4 pro

Contexto:1,050,000

Versão do GPT-5.4 que produz respostas mais inteligentes e mais precisas.

GPT-5.4

GPT-5.4

Contexto:1,050,000

GPT-5.4 é o modelo de fronteira para trabalho profissional complexo. Reasoning.effort suporta: none (default), low, medium, high e xhigh.

GPT-5.3 Chat

GPT-5.3 Chat

Modelo GPT-5.3 Instant utilizado no ChatGPT

Gemini 3.1 Flash-Lite

Gemini 3.1 Flash-Lite

Gemini 3.1 Flash-Lite é um modelo Tier-3 altamente eficiente em termos de custo e de baixa latência da série Gemini 3 do Google, projetado para fluxos de trabalho de IA em produção de alto volume, nos quais a taxa de processamento e a velocidade importam mais do que a profundidade máxima de raciocínio. Ele combina uma ampla janela de contexto multimodal com desempenho de inferência eficiente, a um custo inferior ao da maioria dos modelos emblemáticos.

Claude Haiku 4.5

Claude Haiku 4.5

Modelo mais rápido e com melhor custo-benefício.

Sora 2 Pro

Sora 2 Pro

Por Segundo:$0.24

Sora 2 Pro é nosso modelo de geração de mídia mais avançado e poderoso, capaz de gerar vídeos com áudio sincronizado. Ele pode criar clipes de vídeo detalhados e dinâmicos a partir de linguagem natural ou imagens.

Sora 2

Sora 2

Por Segundo:$0.08

Modelo de geração de vídeo superpotente, com efeitos sonoros, suporta o formato de chat.

mj_fast_video

mj_fast_video

Por Solicitação:$0.6

Midjourney video generation

Qwen 3.5 Flash

Qwen 3.5 Flash

Entrada:$0.16/M

Como um modelo nativo de visão-linguagem, o QWEN3.5-397B-A17B da série Qwen3.5 se destaca em avaliações abrangentes de benchmarking, como inferência, programação, capacidades de agente e compreensão multimodal, ajudando desenvolvedores e empresas a melhorar significativamente a produtividade. O modelo utiliza uma arquitetura híbrida inovadora que combina atenção linear (Gated Delta Networks) com especialistas híbridos esparsos (MoE) para alcançar excelente eficiência de inferência: 397 bilhões de parâmetros no total e apenas 17 bilhões de parâmetros ativados por propagação direta, otimizando velocidade e custo enquanto mantém a capacidade. Também expandimos nosso suporte a idiomas e dialetos de 119 para 201, proporcionando maior disponibilidade e melhor suporte para usuários em todo o mundo.

Grok 4.20

Grok 4.20

Contexto:2,000,000

A versão 4.20 do Grok introduz uma arquitetura multiagente (múltiplos agentes especializados coordenados em tempo real), modos de contexto expandidos e melhorias focadas em seguimento de instruções, redução de alucinações e saídas estruturadas/assistidas por ferramentas.

Grok Imagine Video

Grok Imagine Video

Por Segundo:$0.04

Gere vídeos a partir de prompts de texto, anime imagens estáticas ou edite vídeos existentes com linguagem natural. A API suporta duração, proporção de aspecto e resolução configuráveis para os vídeos gerados — com o SDK gerenciando automaticamente o polling assíncrono.

gpt-realtime-1.5

gpt-realtime-1.5

Contexto:32,000

O melhor modelo de voz para áudio de entrada e áudio de saída.

gpt-audio-1.5

gpt-audio-1.5

O melhor modelo de voz para entrada e saída de áudio com Chat Completions.

GPT 5.3 Codex

GPT 5.3 Codex

Contexto:400,000

GPT-5.3-Codex é otimizado para tarefas de codificação orientadas a agentes no Codex ou em ambientes semelhantes. GPT-5.3-Codex suporta configurações de esforço de raciocínio low, medium, high e xhigh.

Doubao Seedream 5

Doubao Seedream 5

Por Solicitação:$0.028

Seedream 5.0 Lite é um modelo unificado de geração de imagens multimodal, dotado de capacidades de pensamento profundo e de pesquisa online, apresentando uma atualização abrangente em suas capacidades de compreensão, raciocínio e geração.

Gemini 3.1 Pro

Gemini 3.1 Pro

Gemini 3.1 Pro é a próxima geração na série de modelos Gemini, um conjunto de modelos de raciocínio altamente capazes e nativamente multimodais. Gemini 3 Pro é agora o modelo mais avançado do Google para tarefas complexas e consegue compreender vastos conjuntos de dados e problemas desafiadores provenientes de diferentes fontes de informação, incluindo texto, áudio, imagens, vídeo e repositórios de código inteiros.

qwen3.5-plus

qwen3.5-plus

Entrada:$0.32/M

Os modelos Qwen3.5 da série Plus nativos de visão-linguagem são baseados em uma arquitetura híbrida que integra mecanismos de atenção linear com modelos de mistura de especialistas esparsos, obtendo maior eficiência de inferência.

qwen3.5-397b-a17b

qwen3.5-397b-a17b

Entrada:$0.48/M

O modelo nativo de visão-linguagem Qwen3.5 series 397B-A17B é baseado em uma arquitetura híbrida que integra um mecanismo de atenção linear com um modelo de mistura esparsa de especialistas, proporcionando maior eficiência de inferência.

Doubao-Seed-2.0

Doubao-Seed-2.0

Entrada:$0.024/M

🔹 Série Doubao Seed 2.0 doubao-seed-2-0-code-preview-260215 Foca em capacidades de raciocínio de cadeia longa e estabilidade em tarefas complexas, adaptado para cenários complexos em ambientes empresariais reais. Como a versão do Seed 2.0 aprimorada para codificação, é mais adequada para Agentic Coding. doubao-seed-2-0-lite-260215 Equilibra a qualidade de geração com a velocidade de resposta, tornando-o adequado como um modelo de nível de produção para uso geral. doubao-seed-2-0-mini-260215 Projetado para cenários de baixa latência, alta concorrência e sensíveis a custos. Enfatiza resposta rápida e implantação flexível de inferência, suportando pensamento em quatro níveis e capacidades de compreensão multimodal.

MiniMax M2.5

MiniMax M2.5

Entrada:$0.24/M

MiniMax-M2.5 é um modelo de linguagem de grande porte de última geração, projetado para a produtividade no mundo real. Treinado em uma ampla gama de ambientes de trabalho digitais complexos do mundo real, o M2.5 baseia-se na expertise em codificação do M2.1 para se expandir ao trabalho de escritório em geral, alcançando fluência na criação e no manuseio de arquivos do Word, Excel e Powerpoint, na alternância de contextos entre diversos ambientes de software e no trabalho conjunto com diferentes agentes e equipes humanas.