Gemini 2.5 Flash foi projetado para fornecer respostas rápidas sem comprometer a qualidade do resultado. Ele oferece suporte a entradas multimodais, incluindo texto, imagens, áudio e vídeo, tornando-o adequado para aplicações diversas. O modelo é acessível por meio de plataformas como Google AI Studio e Vertex AI, fornecendo aos desenvolvedores as ferramentas necessárias para integração perfeita em vários sistemas.
Gemini 2.5 Flash apresenta vários recursos de destaque que o diferenciam dentro da família Gemini 2.5:
Gemini 2.5 Flash passou pelas seguintes versões principais:
Em julho de 2025, Gemini 2.5 Flash está agora publicamente disponível e estável (sem alterações em relação ao gemini-2.5-flash-preview-05-20 ).If you are using gemini-2.5-flash-preview-04-17, the existing preview pricing will continue until the scheduled retirement of the model endpoint on July 15, 2025, when it will be shut down. You can migrate to the generally available model "gemini-2.5-flash" .
Mais rápido, mais barato, mais inteligente:
Janela de contexto de entrada: Até 1 milhão de tokens, permitindo ampla retenção de contexto.
Tokens de saída: Capaz de gerar até 8.192 tokens por resposta.
Modalidades compatíveis: Texto, imagens, áudio e vídeo.
Plataformas de integração: Disponível por meio do Google AI Studio e do Vertex AI.
Preços: Modelo competitivo baseado em tokens, facilitando implantação econômica.
Nos bastidores, Gemini 2.5 Flash é um grande modelo de linguagem baseado em Transformer, treinado com uma mistura de dados da web, de código, de imagem e de vídeo. As principais especificações técnicas incluem:
Treinamento multimodal: Treinado para alinhar múltiplas modalidades, o Flash pode combinar perfeitamente texto com imagens, vídeo ou áudio, útil para tarefas como sumarização de vídeo ou legendagem de áudio .
Processo de raciocínio dinâmico: Implementa um loop interno de raciocínio no qual o modelo planeja e decompõe prompts complexos antes da saída final .
Orçamentos de raciocínio configuráveis: O thinking_budget pode ser definido de 0 (sem raciocínio) até 24.576 tokens, permitindo equilibrar latência e qualidade da resposta .
Integração de ferramentas: Suporta Grounding with Google Search, Execução de código, Contexto de URL e Chamadas de função, possibilitando ações no mundo real diretamente a partir de prompts em linguagem natural .
Em avaliações rigorosas, Gemini 2.5 Flash demonstra desempenho líder no setor:
Esses resultados indicam a vantagem competitiva do Gemini 2.5 Flash em raciocínio, compreensão científica, resolução de problemas matemáticos, programação, interpretação visual e capacidades multilíngues:

Embora poderoso, Gemini 2.5 Flash apresenta algumas limitações:
| Preço do Comet (USD / M Tokens) | Preço Oficial (USD / M Tokens) |
|---|---|
Entrada:$0.24/M Saída:$2.00/M | Entrada:$0.30/M Saída:$2.50/M |
from google import genai
import os
# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"
client = genai.Client(
http_options={"api_version": "v1beta", "base_url": BASE_URL},
api_key=COMETAPI_KEY,
)
response = client.models.generate_content(
model="gemini-2.5-flash",
contents="Tell me a three sentence bedtime story about a unicorn.",
)
print(response.text)