Gemini 2.5 Flash foi projetado para oferecer respostas rápidas sem comprometer a qualidade do resultado. Ele suporta entradas multimodais, incluindo texto, imagens, áudio e vídeo, tornando-o adequado para diversas aplicações. O modelo é acessível por meio de plataformas como Google AI Studio e Vertex AI, fornecendo aos desenvolvedores as ferramentas necessárias para uma integração perfeita em vários sistemas.

Informações básicas (Recursos)

O Gemini 2.5 Flash introduz vários recursos de destaque que o distinguem dentro da família Gemini 2.5:

Raciocínio híbrido: Os desenvolvedores podem definir o parâmetro thinking_budget para controlar com precisão quantos tokens o modelo dedica ao raciocínio interno antes da saída.
Fronteira de Pareto: Posicionado no ponto ótimo de custo-desempenho, o Flash oferece a melhor relação preço–inteligência entre os modelos 2.5.
Suporte multimodal: Processa texto, imagens, vídeo e áudio de forma nativa, permitindo capacidades conversacionais e analíticas mais ricas.
Contexto de 1 milhão de tokens: O comprimento de contexto incomparável permite análise profunda e compreensão de documentos longos em uma única solicitação.

Versionamento do modelo

O Gemini 2.5 Flash passou pelas seguintes versões principais:

gemini-2.5-flash-lite-preview-09-2025: Usabilidade da ferramenta aprimorada: desempenho melhorado em tarefas complexas e de múltiplas etapas, com aumento de 5% nas pontuações do SWE-Bench Verified (de 48.9% para 54%). Eficiência aprimorada: ao ativar o raciocínio, obtém-se saída de maior qualidade com menos tokens, reduzindo a latência e os custos.
Preview 04-17: Lançamento de acesso antecipado com capacidade de “raciocínio”, disponível via gemini-2.5-flash-preview-04-17.
Disponibilidade geral estável (GA): A partir de 17 de junho de 2025, o endpoint estável gemini-2.5-flash substitui o preview, garantindo confiabilidade em nível de produção, sem mudanças de API em relação ao preview de 20 de maio.
Descontinuação do Preview: Os endpoints de preview estavam programados para desligamento em 15 de julho de 2025; os usuários devem migrar para o endpoint GA antes dessa data.

A partir de julho de 2025, o Gemini 2.5 Flash está agora disponível publicamente e estável (sem mudanças em relação ao gemini-2.5-flash-preview-05-20). Se você estiver usando gemini-2.5-flash-preview-04-17, a precificação de preview existente continuará até a aposentadoria programada do endpoint do modelo em 15 de julho de 2025, quando será desativado. Você pode migrar para o modelo de disponibilidade geral "gemini-2.5-flash".

Mais rápido, mais barato, mais inteligente:

Metas de design: baixa latência + alta taxa de transferência + baixo custo;
Aceleração geral no raciocínio, no processamento multimodal e em tarefas com textos longos;
O uso de tokens é reduzido em 20–30%, reduzindo significativamente os custos de raciocínio.

Especificações técnicas

Janela de contexto de entrada: até 1 milhão de tokens, permitindo ampla retenção de contexto.

Tokens de saída: capaz de gerar até 8,192 tokens por resposta.

Modalidades suportadas: texto, imagens, áudio e vídeo.

Plataformas de integração: disponível por meio de Google AI Studio e Vertex AI.

Precificação: modelo competitivo baseado em tokens, facilitando uma implantação econômica.

Detalhes técnicos

Nos bastidores, o Gemini 2.5 Flash é um grande modelo de linguagem baseado em transformer, treinado em uma mistura de dados da web, código, imagem e vídeo. As principais especificações técnicas incluem:

Treinamento multimodal: Treinado para alinhar múltiplas modalidades, o Flash pode combinar texto com imagens, vídeo ou áudio sem interrupções, útil para tarefas como sumarização de vídeo ou legendagem de áudio.

Processo de raciocínio dinâmico: Implementa um ciclo interno de raciocínio em que o modelo planeja e decompõe prompts complexos antes da saída final.

Orçamentos de raciocínio configuráveis: O thinking_budget pode ser definido de 0 (sem raciocínio) até 24,576 tokens, permitindo compensações entre latência e qualidade da resposta.

Integração de ferramentas: Suporta Grounding with Google Search, Execução de código, Contexto de URL e Chamadas de função, possibilitando ações no mundo real diretamente a partir de prompts em linguagem natural.

Desempenho em benchmarks

Em avaliações rigorosas, o Gemini 2.5 Flash demonstra desempenho líder no setor:

LMArena Hard Prompts: Ficou atrás apenas do 2.5 Pro no desafiador benchmark Hard Prompts, demonstrando fortes capacidades de raciocínio em múltiplas etapas.
Pontuação MMLU de 0.809: Supera o desempenho médio dos modelos com uma precisão MMLU de 0.809, refletindo seu amplo conhecimento de domínio e capacidade de raciocínio.
Latência e taxa de transferência: Alcança velocidade de decodificação de 271.4 tokens/sec com 0.29 s de Time-to-First-Token, tornando-o ideal para cargas de trabalho sensíveis à latência.
Líder em preço versus desempenho: A $!0.26/1 M tokens, o Flash tem preço inferior ao de muitos concorrentes, ao mesmo tempo que os iguala ou supera em benchmarks-chave.

Esses resultados indicam a vantagem competitiva do Gemini 2.5 Flash em raciocínio, entendimento científico, resolução de problemas matemáticos, programação, interpretação visual e capacidades multilíngues:

Limitações

Embora poderoso, o Gemini 2.5 Flash apresenta algumas limitações:

Riscos de segurança: O modelo pode apresentar um tom “moralizante” e pode produzir saídas com aparência plausível, porém incorretas ou tendenciosas (alucinações), especialmente em consultas de casos extremos. Supervisão humana rigorosa continua sendo essencial.
Limites de taxa: O uso da API é restringido por limites de taxa (10 RPM, 250,000 TPM, 250 RPD nos níveis padrão), o que pode impactar o processamento em lote ou aplicações de alto volume.
Limite inferior de inteligência: Embora excepcionalmente capaz para um modelo flash, ainda é menos preciso que o 2.5 Pro nas tarefas agentivas mais exigentes, como codificação avançada ou coordenação multiagente.
Compensações de custo: Embora ofereça o melhor preço-desempenho, o uso extensivo do modo de raciocínio aumenta o consumo geral de tokens, elevando os custos para prompts que exigem raciocínio profundo.

Preços para Gemini 2.5 Flash

Explore preços competitivos para Gemini 2.5 Flash, projetado para atender diversos orçamentos e necessidades de uso. Nossos planos flexíveis garantem que você pague apenas pelo que usar, facilitando o dimensionamento conforme suas necessidades crescem. Descubra como Gemini 2.5 Flash pode aprimorar seus projetos mantendo os custos gerenciáveis.

gemini-2.5-flash (same price across variants)

Model family	Variant (model name)	Input price (USD / 1M tokens)	Output price (USD / 1M tokens)
gemini-2.5-flash	gemini-2.5-flash-thinking	$0.24	$2.00
gemini-2.5-flash	gemini-2.5-flash-all	$0.24	$2.00
gemini-2.5-flash	gemini-2.5-flash	$0.24	$2.00

Código de exemplo e API para Gemini 2.5 Flash

A Gemini 2.5 Flash API é o mais recente modelo de IA multimodal do Google, projetado para tarefas de alta velocidade e baixo custo, com capacidades de raciocínio controláveis, permitindo que os desenvolvedores ativem ou desativem recursos avançados de "pensamento" por meio da Gemini API.

Python
JavaScript
Curl

from google import genai
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": BASE_URL},
    api_key=COMETAPI_KEY,
)

response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="Tell me a three sentence bedtime story about a unicorn.",
)

print(response.text)

Versões do Gemini 2.5 Flash

O motivo pelo qual Gemini 2.5 Flash possui múltiplas versões instantâneas pode incluir fatores como variações na saída após atualizações que exigem versões antigas para consistência, fornecendo aos desenvolvedores um período de transição para adaptação e migração, e diferentes versões correspondentes a endpoints globais ou regionais para otimizar a experiência do usuário. Para diferenças detalhadas entre versões, consulte a documentação oficial.

version
gemini-2.5-flash-preview-04-17
gemini-2.5-flash-thinking
gemini-2.5-flash-all
gemini-2.5-flash-deepsearch
gemini-2.5-flash-lite
gemini-2.5-flash-image
gemini-2.5-flash-preview-05-20
gemini-2.5-flash-preview-09-2025
gemini-2.5-flash-lite-preview-06-17-thinking
gemini-2.5-flash-lite-thinking
gemini-2.5-flash-lite-preview-09-2025
gemini-2.5-flash
gemini-2.5-flash-image-preview
gemini-2.5-flash-lite-preview-06-17

Informações básicas (Recursos)

O Gemini 2.5 Flash introduz vários recursos de destaque que o distinguem dentro da família Gemini 2.5:

Raciocínio híbrido: Os desenvolvedores podem definir o parâmetro thinking_budget para controlar com precisão quantos tokens o modelo dedica ao raciocínio interno antes da saída.
Fronteira de Pareto: Posicionado no ponto ótimo de custo-desempenho, o Flash oferece a melhor relação preço–inteligência entre os modelos 2.5.
Suporte multimodal: Processa texto, imagens, vídeo e áudio de forma nativa, permitindo capacidades conversacionais e analíticas mais ricas.
Contexto de 1 milhão de tokens: O comprimento de contexto incomparável permite análise profunda e compreensão de documentos longos em uma única solicitação.

Versionamento do modelo

O Gemini 2.5 Flash passou pelas seguintes versões principais:

gemini-2.5-flash-lite-preview-09-2025: Usabilidade da ferramenta aprimorada: desempenho melhorado em tarefas complexas e de múltiplas etapas, com aumento de 5% nas pontuações do SWE-Bench Verified (de 48.9% para 54%). Eficiência aprimorada: ao ativar o raciocínio, obtém-se saída de maior qualidade com menos tokens, reduzindo a latência e os custos.
Preview 04-17: Lançamento de acesso antecipado com capacidade de “raciocínio”, disponível via gemini-2.5-flash-preview-04-17.
Disponibilidade geral estável (GA): A partir de 17 de junho de 2025, o endpoint estável gemini-2.5-flash substitui o preview, garantindo confiabilidade em nível de produção, sem mudanças de API em relação ao preview de 20 de maio.
Descontinuação do Preview: Os endpoints de preview estavam programados para desligamento em 15 de julho de 2025; os usuários devem migrar para o endpoint GA antes dessa data.

Mais rápido, mais barato, mais inteligente:

Metas de design: baixa latência + alta taxa de transferência + baixo custo;
Aceleração geral no raciocínio, no processamento multimodal e em tarefas com textos longos;
O uso de tokens é reduzido em 20–30%, reduzindo significativamente os custos de raciocínio.

Especificações técnicas

Janela de contexto de entrada: até 1 milhão de tokens, permitindo ampla retenção de contexto.

Tokens de saída: capaz de gerar até 8,192 tokens por resposta.

Modalidades suportadas: texto, imagens, áudio e vídeo.

Plataformas de integração: disponível por meio de Google AI Studio e Vertex AI.

Precificação: modelo competitivo baseado em tokens, facilitando uma implantação econômica.

Detalhes técnicos

Processo de raciocínio dinâmico: Implementa um ciclo interno de raciocínio em que o modelo planeja e decompõe prompts complexos antes da saída final.

Desempenho em benchmarks

Em avaliações rigorosas, o Gemini 2.5 Flash demonstra desempenho líder no setor:

LMArena Hard Prompts: Ficou atrás apenas do 2.5 Pro no desafiador benchmark Hard Prompts, demonstrando fortes capacidades de raciocínio em múltiplas etapas.
Pontuação MMLU de 0.809: Supera o desempenho médio dos modelos com uma precisão MMLU de 0.809, refletindo seu amplo conhecimento de domínio e capacidade de raciocínio.
Latência e taxa de transferência: Alcança velocidade de decodificação de 271.4 tokens/sec com 0.29 s de Time-to-First-Token, tornando-o ideal para cargas de trabalho sensíveis à latência.
Líder em preço versus desempenho: A $!0.26/1 M tokens, o Flash tem preço inferior ao de muitos concorrentes, ao mesmo tempo que os iguala ou supera em benchmarks-chave.

Limitações

Embora poderoso, o Gemini 2.5 Flash apresenta algumas limitações:

Riscos de segurança: O modelo pode apresentar um tom “moralizante” e pode produzir saídas com aparência plausível, porém incorretas ou tendenciosas (alucinações), especialmente em consultas de casos extremos. Supervisão humana rigorosa continua sendo essencial.
Limites de taxa: O uso da API é restringido por limites de taxa (10 RPM, 250,000 TPM, 250 RPD nos níveis padrão), o que pode impactar o processamento em lote ou aplicações de alto volume.
Limite inferior de inteligência: Embora excepcionalmente capaz para um modelo flash, ainda é menos preciso que o 2.5 Pro nas tarefas agentivas mais exigentes, como codificação avançada ou coordenação multiagente.
Compensações de custo: Embora ofereça o melhor preço-desempenho, o uso extensivo do modo de raciocínio aumenta o consumo geral de tokens, elevando os custos para prompts que exigem raciocínio profundo.

Gemini 2.5 Flash

Mais modelos

Claude Opus 4.7

Claude Sonnet 4.6

GPT 5.5 Pro

GPT 5.5

GPT Image 2 ALL

GPT 5.5 ALL

Blogs relacionados

Nano Banana 2 Flash Em breve – A evolução em alta velocidade da geração de imagens por IA

Descontos da Nano Banana: uma verdadeira economia em 2026 para desenvolvedores

A API Free Gemini 2.5 Pro pifou? Mudanças na cota gratuita em 2025

Guia definitivo para Nano-Banana: como usar e como obter o melhor

Como usar o Nano Banana via API? (Gemini-2-5-flash-image)