ModelosPreçosEmpresarial
500+ APIs de Modelos de IA, Tudo em Uma API. Apenas na CometAPI
API de Modelos
Desenvolvedor
Início RápidoDocumentaçãoPainel de API
Empresa
Sobre nósEmpresarial
Recursos
Modelos de IABlogRegistro de AlteraçõesSuporte
Termos de ServiçoPolítica de Privacidade
© 2026 CometAPI · All rights reserved
Home/Models/Google/Gemini 2.5 Flash
G

Gemini 2.5 Flash

Entrada:$0.24/M
Saída:$2/M
Contexto:1M
Saída Máxima:65K
Gemini 2.5 Flash é um modelo de IA desenvolvido pelo Google, projetado para oferecer soluções rápidas e com bom custo-benefício para desenvolvedores, especialmente para aplicações que exigem capacidades de inferência aprimoradas. De acordo com o anúncio da prévia do Gemini 2.5 Flash, o modelo foi lançado em prévia em 17 de abril de 2025, suporta entrada multimodal e possui uma janela de contexto de 1 milhão de tokens. Este modelo suporta um comprimento máximo de contexto de 65,536 tokens.
Novo
Uso comercial
Playground
Visão Geral
Recursos
Preços
API
Versões

Gemini 2.5 Flash foi projetado para oferecer respostas rápidas sem comprometer a qualidade do resultado. Ele suporta entradas multimodais, incluindo texto, imagens, áudio e vídeo, tornando-o adequado para diversas aplicações. O modelo é acessível por meio de plataformas como Google AI Studio e Vertex AI, fornecendo aos desenvolvedores as ferramentas necessárias para uma integração perfeita em vários sistemas.


Informações básicas (Recursos)

O Gemini 2.5 Flash introduz vários recursos de destaque que o distinguem dentro da família Gemini 2.5:

  • Raciocínio híbrido: Os desenvolvedores podem definir o parâmetro thinking_budget para controlar com precisão quantos tokens o modelo dedica ao raciocínio interno antes da saída.
  • Fronteira de Pareto: Posicionado no ponto ótimo de custo-desempenho, o Flash oferece a melhor relação preço–inteligência entre os modelos 2.5.
  • Suporte multimodal: Processa texto, imagens, vídeo e áudio de forma nativa, permitindo capacidades conversacionais e analíticas mais ricas.
  • Contexto de 1 milhão de tokens: O comprimento de contexto incomparável permite análise profunda e compreensão de documentos longos em uma única solicitação.

Versionamento do modelo

O Gemini 2.5 Flash passou pelas seguintes versões principais:

  • gemini-2.5-flash-lite-preview-09-2025: Usabilidade da ferramenta aprimorada: desempenho melhorado em tarefas complexas e de múltiplas etapas, com aumento de 5% nas pontuações do SWE-Bench Verified (de 48.9% para 54%). Eficiência aprimorada: ao ativar o raciocínio, obtém-se saída de maior qualidade com menos tokens, reduzindo a latência e os custos.
  • Preview 04-17: Lançamento de acesso antecipado com capacidade de “raciocínio”, disponível via gemini-2.5-flash-preview-04-17.
  • Disponibilidade geral estável (GA): A partir de 17 de junho de 2025, o endpoint estável gemini-2.5-flash substitui o preview, garantindo confiabilidade em nível de produção, sem mudanças de API em relação ao preview de 20 de maio.
  • Descontinuação do Preview: Os endpoints de preview estavam programados para desligamento em 15 de julho de 2025; os usuários devem migrar para o endpoint GA antes dessa data.

A partir de julho de 2025, o Gemini 2.5 Flash está agora disponível publicamente e estável (sem mudanças em relação ao gemini-2.5-flash-preview-05-20). Se você estiver usando gemini-2.5-flash-preview-04-17, a precificação de preview existente continuará até a aposentadoria programada do endpoint do modelo em 15 de julho de 2025, quando será desativado. Você pode migrar para o modelo de disponibilidade geral "gemini-2.5-flash".

Mais rápido, mais barato, mais inteligente:

  • Metas de design: baixa latência + alta taxa de transferência + baixo custo;
  • Aceleração geral no raciocínio, no processamento multimodal e em tarefas com textos longos;
  • O uso de tokens é reduzido em 20–30%, reduzindo significativamente os custos de raciocínio.

Especificações técnicas

Janela de contexto de entrada: até 1 milhão de tokens, permitindo ampla retenção de contexto.

Tokens de saída: capaz de gerar até 8,192 tokens por resposta.

Modalidades suportadas: texto, imagens, áudio e vídeo.

Plataformas de integração: disponível por meio de Google AI Studio e Vertex AI.

Precificação: modelo competitivo baseado em tokens, facilitando uma implantação econômica.


Detalhes técnicos

Nos bastidores, o Gemini 2.5 Flash é um grande modelo de linguagem baseado em transformer, treinado em uma mistura de dados da web, código, imagem e vídeo. As principais especificações técnicas incluem:

Treinamento multimodal: Treinado para alinhar múltiplas modalidades, o Flash pode combinar texto com imagens, vídeo ou áudio sem interrupções, útil para tarefas como sumarização de vídeo ou legendagem de áudio.

Processo de raciocínio dinâmico: Implementa um ciclo interno de raciocínio em que o modelo planeja e decompõe prompts complexos antes da saída final.

Orçamentos de raciocínio configuráveis: O thinking_budget pode ser definido de 0 (sem raciocínio) até 24,576 tokens, permitindo compensações entre latência e qualidade da resposta.

Integração de ferramentas: Suporta Grounding with Google Search, Execução de código, Contexto de URL e Chamadas de função, possibilitando ações no mundo real diretamente a partir de prompts em linguagem natural.


Desempenho em benchmarks

Em avaliações rigorosas, o Gemini 2.5 Flash demonstra desempenho líder no setor:

  • LMArena Hard Prompts: Ficou atrás apenas do 2.5 Pro no desafiador benchmark Hard Prompts, demonstrando fortes capacidades de raciocínio em múltiplas etapas.
  • Pontuação MMLU de 0.809: Supera o desempenho médio dos modelos com uma precisão MMLU de 0.809, refletindo seu amplo conhecimento de domínio e capacidade de raciocínio.
  • Latência e taxa de transferência: Alcança velocidade de decodificação de 271.4 tokens/sec com 0.29 s de Time-to-First-Token, tornando-o ideal para cargas de trabalho sensíveis à latência.
  • Líder em preço versus desempenho: A $!0.26/1 M tokens, o Flash tem preço inferior ao de muitos concorrentes, ao mesmo tempo que os iguala ou supera em benchmarks-chave.

Esses resultados indicam a vantagem competitiva do Gemini 2.5 Flash em raciocínio, entendimento científico, resolução de problemas matemáticos, programação, interpretação visual e capacidades multilíngues:


Limitações

Embora poderoso, o Gemini 2.5 Flash apresenta algumas limitações:

  • Riscos de segurança: O modelo pode apresentar um tom “moralizante” e pode produzir saídas com aparência plausível, porém incorretas ou tendenciosas (alucinações), especialmente em consultas de casos extremos. Supervisão humana rigorosa continua sendo essencial.
  • Limites de taxa: O uso da API é restringido por limites de taxa (10 RPM, 250,000 TPM, 250 RPD nos níveis padrão), o que pode impactar o processamento em lote ou aplicações de alto volume.
  • Limite inferior de inteligência: Embora excepcionalmente capaz para um modelo flash, ainda é menos preciso que o 2.5 Pro nas tarefas agentivas mais exigentes, como codificação avançada ou coordenação multiagente.
  • Compensações de custo: Embora ofereça o melhor preço-desempenho, o uso extensivo do modo de raciocínio aumenta o consumo geral de tokens, elevando os custos para prompts que exigem raciocínio profundo.

Recursos para Gemini 2.5 Flash

Explore os principais recursos do Gemini 2.5 Flash, projetado para aprimorar o desempenho e a usabilidade. Descubra como essas capacidades podem beneficiar seus projetos e melhorar a experiência do usuário.

Preços para Gemini 2.5 Flash

Explore preços competitivos para Gemini 2.5 Flash, projetado para atender diversos orçamentos e necessidades de uso. Nossos planos flexíveis garantem que você pague apenas pelo que usar, facilitando o dimensionamento conforme suas necessidades crescem. Descubra como Gemini 2.5 Flash pode aprimorar seus projetos mantendo os custos gerenciáveis.

gemini-2.5-flash (same price across variants)

Model familyVariant (model name)Input price (USD / 1M tokens)Output price (USD / 1M tokens)
gemini-2.5-flashgemini-2.5-flash-thinking$0.24$2.00
gemini-2.5-flashgemini-2.5-flash-all$0.24$2.00
gemini-2.5-flashgemini-2.5-flash$0.24$2.00

Código de exemplo e API para Gemini 2.5 Flash

A Gemini 2.5 Flash API é o mais recente modelo de IA multimodal do Google, projetado para tarefas de alta velocidade e baixo custo, com capacidades de raciocínio controláveis, permitindo que os desenvolvedores ativem ou desativem recursos avançados de "pensamento" por meio da Gemini API.
POST
/v1beta/models/{model}:{operator}
POST
/v1/chat/completions
Python
JavaScript
Curl
from google import genai
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": BASE_URL},
    api_key=COMETAPI_KEY,
)

response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="Tell me a three sentence bedtime story about a unicorn.",
)

print(response.text)

Python Code Example

from google import genai
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": BASE_URL},
    api_key=COMETAPI_KEY,
)

response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="Tell me a three sentence bedtime story about a unicorn.",
)

print(response.text)

JavaScript Code Example

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY;
const base_url = "https://api.cometapi.com/v1beta";
const model = "gemini-2.5-flash";
const operator = "generateContent";

async function main() {
  const response = await fetch(`${base_url}/models/${model}:${operator}`, {
    method: "POST",
    headers: {
      "Content-Type": "application/json",
      Authorization: api_key,
    },
    body: JSON.stringify({
      contents: [
        {
          parts: [
            { text: "Tell me a three sentence bedtime story about a unicorn." },
          ],
        },
      ],
    }),
  });

  const data = await response.json();
  console.log(data.candidates[0].content.parts[0].text);
}

await main();

Curl Code Example

curl "https://api.cometapi.com/v1beta/models/gemini-2.5-flash:generateContent" \
  -H "Authorization: $COMETAPI_KEY" \
  -H 'Content-Type: application/json' \
  -X POST \
  -d '{
    "contents": [
      {
        "parts": [
          {
            "text": "Tell me a three sentence bedtime story about a unicorn."
          }
        ]
      }
    ]
  }'

Versões do Gemini 2.5 Flash

O motivo pelo qual Gemini 2.5 Flash possui múltiplas versões instantâneas pode incluir fatores como variações na saída após atualizações que exigem versões antigas para consistência, fornecendo aos desenvolvedores um período de transição para adaptação e migração, e diferentes versões correspondentes a endpoints globais ou regionais para otimizar a experiência do usuário. Para diferenças detalhadas entre versões, consulte a documentação oficial.
version
gemini-2.5-flash-preview-04-17
gemini-2.5-flash-thinking
gemini-2.5-flash-all
gemini-2.5-flash-deepsearch
gemini-2.5-flash-lite
gemini-2.5-flash-image
gemini-2.5-flash-preview-05-20
gemini-2.5-flash-preview-09-2025
gemini-2.5-flash-lite-preview-06-17-thinking
gemini-2.5-flash-lite-thinking
gemini-2.5-flash-lite-preview-09-2025
gemini-2.5-flash
gemini-2.5-flash-image-preview
gemini-2.5-flash-lite-preview-06-17

Mais modelos

C

Claude Opus 4.7

Entrada:$3/M
Saída:$15/M
O modelo mais inteligente para agentes e programação
A

Claude Sonnet 4.6

Entrada:$2.4/M
Saída:$12/M
Claude Sonnet 4.6 é o nosso modelo Sonnet mais capaz até agora. É uma atualização completa das capacidades do modelo em programação, uso do computador, raciocínio de longo contexto, planejamento de agentes, trabalho de conhecimento e design. Sonnet 4.6 também apresenta uma janela de contexto de 1M tokens em beta.
O

GPT 5.5 Pro

Entrada:$24/M
Saída:$144/M
Um modelo avançado projetado para lógica extremamente complexa e exigências profissionais, representando o mais alto padrão de raciocínio profundo e capacidades analíticas precisas.
O

GPT 5.5

Entrada:$4/M
Saída:$24/M
Um modelo multimodal carro-chefe de próxima geração que equilibra desempenho excepcional com respostas eficientes, dedicado a fornecer serviços de IA de uso geral abrangentes e estáveis.
O

GPT Image 2 ALL

Por Solicitação:$0.04
GPT Image 2 é o modelo de geração de imagens de última geração da OpenAI para gerar e editar imagens com rapidez e alta qualidade. Ele suporta tamanhos de imagem flexíveis e entradas de imagem de alta fidelidade.
O

GPT 5.5 ALL

Entrada:$4/M
Saída:$24/M
O GPT-5.5 se destaca na escrita de código, na pesquisa online, na análise de dados e nas operações entre ferramentas. O modelo não apenas aumenta sua autonomia ao lidar com tarefas complexas de múltiplas etapas, mas também melhora significativamente as capacidades de raciocínio e a eficiência de execução, mantendo a mesma latência que seu predecessor, marcando um passo importante rumo à automação de escritório automatizada em IA.

Blogs relacionados

Nano Banana 2 Flash Em breve – A evolução em alta velocidade da geração de imagens por IA
Jan 6, 2026
nano-banana-2

Nano Banana 2 Flash Em breve – A evolução em alta velocidade da geração de imagens por IA

A Google voltou a abalar o cenário da IA generativa com o Nano Banana 2 Flash — em breve, a mais recente adição à sua amplamente aclamada família de geração de imagens "Nano Banana". Após o enorme sucesso do Nano Banana Pro (Gemini 3 Pro Image) no final do ano passado, esta nova iteração promete democratizar a síntese visual de nível profissional ao combinar a inteligência de ponta da arquitetura Gemini 3 com velocidade e eficiência sem precedentes.
Descontos da Nano Banana: uma verdadeira economia em 2026 para desenvolvedores
Dec 25, 2025
nano-banana-pro

Descontos da Nano Banana: uma verdadeira economia em 2026 para desenvolvedores

Em conclusão: a API oficial do Nano Banana não oferece descontos de Natal, Ano-Novo ou outros feriados. Este é um fato que todos os desenvolvedores que planejam usar o Nano Banana (incluindo o Nano Banana Pro) para geração de imagens, criação de conteúdo ou integração de produto em 2026 devem compreender. O Google não oferece descontos sazonais para a API do Nano Banana, seja no Natal, na Black Friday ou no Ano-Novo. O sistema de preços da API oficial é consistentemente estável e transparente, com praticamente nenhuma margem para descontos. Então, a questão é: se você é um desenvolvedor e planeja realizar geração de imagens em larga escala, testes de modelos ou iterações de produto durante o Natal ou o Ano-Novo, existe alguma maneira de reduzir o custo de uso do Nano Banana?
A API Free Gemini 2.5 Pro pifou? Mudanças na cota gratuita em 2025
Dec 11, 2025
gemini-2-5-pro
gemini-2-5-flash

A API Free Gemini 2.5 Pro pifou? Mudanças na cota gratuita em 2025

O Google endureceu de forma acentuada o nível gratuito da API Gemini: o Gemini 2.5 Pro foi removido do nível gratuito e as requisições gratuitas diárias do Gemini 2.5 Flash foram reduzidas drasticamente (relatos: ~250 → ~20/dia). Isso não significa que o modelo esteja permanentemente 'morto' para experimentação — mas significa que o acesso gratuito foi efetivamente esvaziado para muitos casos de uso do mundo real.
Guia definitivo para Nano-Banana: como usar e como obter o melhor
Sep 8, 2025
gemini-2-5-flash-image

Guia definitivo para Nano-Banana: como usar e como obter o melhor

O recente lançamento do Gemini 2.5 Flash Image do Google — apelidado de “Nano-Banana” — rapidamente se tornou o recurso preferido para edição de imagens de conversação: ele mantém as semelhanças
Como usar o Nano Banana via API? (Gemini-2-5-flash-image)
Aug 28, 2025
gemini-2-5-flash-image

Como usar o Nano Banana via API? (Gemini-2-5-flash-image)

Nano Banana é o apelido da comunidade (e abreviação interna) para o Gemini 2.5 Flash Image do Google — um gerador de imagens multimodais de alta qualidade e baixa latência +