Gemini 2.5 Flash foi projetado para oferecer respostas rápidas sem comprometer a qualidade do resultado. Ele suporta entradas multimodais, incluindo texto, imagens, áudio e vídeo, tornando-o adequado para diversas aplicações. O modelo é acessível por meio de plataformas como Google AI Studio e Vertex AI, fornecendo aos desenvolvedores as ferramentas necessárias para uma integração perfeita em vários sistemas.
Informações básicas (Recursos)
O Gemini 2.5 Flash introduz vários recursos de destaque que o distinguem dentro da família Gemini 2.5:
- Raciocínio híbrido: Os desenvolvedores podem definir o parâmetro thinking_budget para controlar com precisão quantos tokens o modelo dedica ao raciocínio interno antes da saída.
- Fronteira de Pareto: Posicionado no ponto ótimo de custo-desempenho, o Flash oferece a melhor relação preço–inteligência entre os modelos 2.5.
- Suporte multimodal: Processa texto, imagens, vídeo e áudio de forma nativa, permitindo capacidades conversacionais e analíticas mais ricas.
- Contexto de 1 milhão de tokens: O comprimento de contexto incomparável permite análise profunda e compreensão de documentos longos em uma única solicitação.
Versionamento do modelo
O Gemini 2.5 Flash passou pelas seguintes versões principais:
- gemini-2.5-flash-lite-preview-09-2025: Usabilidade da ferramenta aprimorada: desempenho melhorado em tarefas complexas e de múltiplas etapas, com aumento de 5% nas pontuações do SWE-Bench Verified (de 48.9% para 54%). Eficiência aprimorada: ao ativar o raciocínio, obtém-se saída de maior qualidade com menos tokens, reduzindo a latência e os custos.
- Preview 04-17: Lançamento de acesso antecipado com capacidade de “raciocínio”, disponível via gemini-2.5-flash-preview-04-17.
- Disponibilidade geral estável (GA): A partir de 17 de junho de 2025, o endpoint estável gemini-2.5-flash substitui o preview, garantindo confiabilidade em nível de produção, sem mudanças de API em relação ao preview de 20 de maio.
- Descontinuação do Preview: Os endpoints de preview estavam programados para desligamento em 15 de julho de 2025; os usuários devem migrar para o endpoint GA antes dessa data.
A partir de julho de 2025, o Gemini 2.5 Flash está agora disponível publicamente e estável (sem mudanças em relação ao gemini-2.5-flash-preview-05-20). Se você estiver usando gemini-2.5-flash-preview-04-17, a precificação de preview existente continuará até a aposentadoria programada do endpoint do modelo em 15 de julho de 2025, quando será desativado. Você pode migrar para o modelo de disponibilidade geral "gemini-2.5-flash".
Mais rápido, mais barato, mais inteligente:
- Metas de design: baixa latência + alta taxa de transferência + baixo custo;
- Aceleração geral no raciocínio, no processamento multimodal e em tarefas com textos longos;
- O uso de tokens é reduzido em 20–30%, reduzindo significativamente os custos de raciocínio.
Especificações técnicas
Janela de contexto de entrada: até 1 milhão de tokens, permitindo ampla retenção de contexto.
Tokens de saída: capaz de gerar até 8,192 tokens por resposta.
Modalidades suportadas: texto, imagens, áudio e vídeo.
Plataformas de integração: disponível por meio de Google AI Studio e Vertex AI.
Precificação: modelo competitivo baseado em tokens, facilitando uma implantação econômica.
Detalhes técnicos
Nos bastidores, o Gemini 2.5 Flash é um grande modelo de linguagem baseado em transformer, treinado em uma mistura de dados da web, código, imagem e vídeo. As principais especificações técnicas incluem:
Treinamento multimodal: Treinado para alinhar múltiplas modalidades, o Flash pode combinar texto com imagens, vídeo ou áudio sem interrupções, útil para tarefas como sumarização de vídeo ou legendagem de áudio.
Processo de raciocínio dinâmico: Implementa um ciclo interno de raciocínio em que o modelo planeja e decompõe prompts complexos antes da saída final.
Orçamentos de raciocínio configuráveis: O thinking_budget pode ser definido de 0 (sem raciocínio) até 24,576 tokens, permitindo compensações entre latência e qualidade da resposta.
Integração de ferramentas: Suporta Grounding with Google Search, Execução de código, Contexto de URL e Chamadas de função, possibilitando ações no mundo real diretamente a partir de prompts em linguagem natural.
Desempenho em benchmarks
Em avaliações rigorosas, o Gemini 2.5 Flash demonstra desempenho líder no setor:
- LMArena Hard Prompts: Ficou atrás apenas do 2.5 Pro no desafiador benchmark Hard Prompts, demonstrando fortes capacidades de raciocínio em múltiplas etapas.
- Pontuação MMLU de 0.809: Supera o desempenho médio dos modelos com uma precisão MMLU de 0.809, refletindo seu amplo conhecimento de domínio e capacidade de raciocínio.
- Latência e taxa de transferência: Alcança velocidade de decodificação de 271.4 tokens/sec com 0.29 s de Time-to-First-Token, tornando-o ideal para cargas de trabalho sensíveis à latência.
- Líder em preço versus desempenho: A $!0.26/1 M tokens, o Flash tem preço inferior ao de muitos concorrentes, ao mesmo tempo que os iguala ou supera em benchmarks-chave.
Esses resultados indicam a vantagem competitiva do Gemini 2.5 Flash em raciocínio, entendimento científico, resolução de problemas matemáticos, programação, interpretação visual e capacidades multilíngues:
Limitações
Embora poderoso, o Gemini 2.5 Flash apresenta algumas limitações:
- Riscos de segurança: O modelo pode apresentar um tom “moralizante” e pode produzir saídas com aparência plausível, porém incorretas ou tendenciosas (alucinações), especialmente em consultas de casos extremos. Supervisão humana rigorosa continua sendo essencial.
- Limites de taxa: O uso da API é restringido por limites de taxa (10 RPM, 250,000 TPM, 250 RPD nos níveis padrão), o que pode impactar o processamento em lote ou aplicações de alto volume.
- Limite inferior de inteligência: Embora excepcionalmente capaz para um modelo flash, ainda é menos preciso que o 2.5 Pro nas tarefas agentivas mais exigentes, como codificação avançada ou coordenação multiagente.
- Compensações de custo: Embora ofereça o melhor preço-desempenho, o uso extensivo do modo de raciocínio aumenta o consumo geral de tokens, elevando os custos para prompts que exigem raciocínio profundo.




