O API Flash-Lite do Gemini 2.5 representa a mais recente oferta do Google em sua família de modelos de raciocínio híbridos, projetados para fornecer eficiência de custo incomparável e latência ultrabaixa para aplicações de alto volume e sensíveis à latência.
Informações básicas e recursos
Anunciado em uma versão de pré-visualização em 17 de junho de 2025, o Flash-Lite completa a linha Gemini 2.5 - junto com o Flash e o Pro - fornecendo aos desenvolvedores uma opção otimizada para velocidade, preço-desempenho e pensamento adaptativo capacidades.
Você pode começar a usar o Gemini 2.5 Flash-Lite especificando "gemini-2.5-flash-lite" no seu código. Se estiver usando uma versão de pré-visualização, você pode alternar para "gemini-2.5-flash-lite", que é o mesmo que a versão de pré-visualização. O Google planeja remover o alias de pré-visualização do Flash-Lite em 25 de agosto.
| Estabilidade | Modelo | Data |
| Estável (GA) | gemini-2.5-flash-lite | 22 de julho de 2025 |
| Prévia experimental | gemini-2.5-flash-lite-06-17 | Período de disponibilidade: 17 de junho a 25 de agosto de 2025 |
| última versão | gemini-2.5-flash-lite-preview-09-2025 | 09-2025 |
- Controle do Pensamento: Implementa um orçamento de pensamento dinâmico por meio de um parâmetro de API, com pensamento desativado por padrão para maximizar a velocidade e reduzir custos.
- Baixa latência: Projetado para um tempo rápido para o primeiro tokenO Flash-Lite minimiza a sobrecarga de inicialização, alcançando latências abaixo de 100 ms na infraestrutura padrão do Google Cloud.
- Alto rendimento: Com pipelines de decodificação capazes, ele sustenta centenas de tokens por segundo, desbloqueando experiências de usuário em tempo real em chatbots e aplicativos de streaming.
- Suporte multimodal:Embora otimizado principalmente para texto, o Flash-Lite também aceita imagens, auditivo e vídeo entradas por meio da API Gemini, permitindo casos de uso versáteis, desde resumo de documentos até tarefas de visão leve.
Detalhes Técnicos
- Raciocínio adaptativo:
Gemini 2.5 Flash-Litesuporta sob demanda pensando, permitindo que os desenvolvedores aloquem recursos de computação somente quando for necessário um raciocínio mais profundo. - Integrações de ferramentas: Compatibilidade total com as ferramentas nativas do Gemini 2.5, incluindo Aterramento com a Pesquisa Google, Execução de Código, Contexto de URL e Chamada de função para fluxos de trabalho multimodais contínuos.
- Protocolo de Contexto do Modelo (MCP): Aproveita o MCP do Google para buscar dados da web em tempo real, garantindo que as respostas sejam que vai mais à frente e contextualmente relevante.
- Opções de implantação: Disponível através do CometAPI, API Gêmeos, VERTEX AI e Estúdio de IA do Google, com uma faixa de pré-visualização para os primeiros usuários experimentarem e fornecerem feedback.
Desempenho de referência de Gemini 2.5 Flash-Lite
- Latência: Alcança até Tempos médios de resposta 50% menores comparado ao Gemini 2.5 Flash, com típico abaixo de 100 ms latências em benchmarks padrão de classificação e sumarização.
- Produtividade: Otimizado para volume alto cargas de trabalho, sustentando dezenas de milhares de solicitações por minuto sem degradação do desempenho.
- Preço-Desempenho: Demonstra uma Redução de 25% no custo por 1,000 tokens em comparação com sua contraparte em Flash, tornando-o o Pareto-ótimo escolha para implantações com custos sensíveis.
- Adoção da Indústria: Os primeiros usuários relatam integração perfeita aos pipelines de produção, com métricas de desempenho alinhadas ou excedendo as projeções iniciais.

Casos de uso ideais
- Tarefas de alta frequência e baixa complexidade: Marcação automatizada, análise de sentimentos e tradução em massa
- Pipelines sensíveis a custos: Extração de dados de grandes corpora de documentos, sumarização periódica de lotes
- Cenários de Edge e Mobile: Quando a latência é crítica, mas os orçamentos de recursos são limitados
Limitações de Gemini 2.5 Flash-Lite
- Status de visualização: Pode sofrer alterações na API antes do GA; as integrações devem levar em conta possíveis mudanças de versão.
- Sem ajustes finos instantâneos: Não é possível carregar pesos personalizados; confie na engenharia rápida e nas mensagens do sistema.
- Criatividade Reduzida: Ajustado para tarefas determinísticas de alto rendimento; menos adequado para geração aberta ou escrita “criativa”.
- Teto de Recursos: Escala linearmente apenas até ~16 vCPUs; além disso, os ganhos de produtividade diminuem.
- Restrições multimodais: Suporta entradas de imagem/áudio, mas com fidelidade limitada; não é ideal para tarefas de visão pesada ou transcrição de áudio.
- Compensação entre contexto e janela :Embora aceite até 1 M de tokens, a inferência prática nessa escala pode ter uma taxa de transferência degradada.
Como ligar Gemini 2.5 Flash-Lite API da CometAPI
Gemini 2.5 Flash-Lite Preços da API no CometAPI, 20% de desconto sobre o preço oficial:
- Tokens de entrada: $0.08/ M tokens
- Tokens de saída: US$ 0.32/M tokens
Etapas Necessárias
- Faça o login no cometapi.com. Se você ainda não é nosso usuário, registre-se primeiro
- Obtenha a chave de API da credencial de acesso da interface. Clique em "Adicionar Token" no token da API no centro pessoal, obtenha a chave de token: sk-xxxxx e envie.
- Obtenha a URL deste site: https://api.cometapi.com/
Métodos de uso
- Selecione a opção "
gemini-2.5-flash-lite” endpoint para enviar a solicitação de API e definir o corpo da solicitação. O método e o corpo da solicitação são obtidos da documentação da API do nosso site. Nosso site também oferece o teste Apifox para sua conveniência. - Substituir com sua chave CometAPI real da sua conta.
- Insira sua pergunta ou solicitação no campo de conteúdo — é a isso que o modelo responderá.
- . Processe a resposta da API para obter a resposta gerada.
A CometAPI fornece uma API REST totalmente compatível — para uma migração perfeita. Detalhes importantes para Doc API:
- URL base: https://api.cometapi.com/v1/chat/completions
- Nomes de modelo: "
gemini-2.5-flash-lite" - Autenticação:
Bearer YOUR_CometAPI_API_KEYcabeçalho
Veja também Gêmeos 2.5 Pró
