API Flash-Lite do Gemini 2.5

CometAPI
AnnaJun 26, 2025
API Flash-Lite do Gemini 2.5

O API Flash-Lite do Gemini 2.5 representa a mais recente oferta do Google em sua família de modelos de raciocínio híbridos, projetados para fornecer eficiência de custo incomparável e latência ultrabaixa para aplicações de alto volume e sensíveis à latência.


Informações básicas e recursos

Anunciado em uma versão de pré-visualização em 17 de junho de 2025, o Flash-Lite completa a linha Gemini 2.5 - junto com o Flash e o Pro - fornecendo aos desenvolvedores uma opção otimizada para velocidade, preço-desempenho e pensamento adaptativo capacidades.

Você pode começar a usar o Gemini 2.5 Flash-Lite especificando "gemini-2.5-flash-lite" no seu código. Se estiver usando uma versão de pré-visualização, você pode alternar para "gemini-2.5-flash-lite", que é o mesmo que a versão de pré-visualização. O Google planeja remover o alias de pré-visualização do Flash-Lite em 25 de agosto.

EstabilidadeModeloData
Estável (GA)gemini-2.5-flash-lite22 de julho de 2025
Prévia experimentalgemini-2.5-flash-lite-06-17Período de disponibilidade: 17 de junho a 25 de agosto de 2025
última versãogemini-2.5-flash-lite-preview-09-202509-2025
  • Controle do Pensamento: Implementa um orçamento de pensamento dinâmico por meio de um parâmetro de API, com pensamento desativado por padrão para maximizar a velocidade e reduzir custos.
  • Baixa latência: Projetado para um tempo rápido para o primeiro tokenO Flash-Lite minimiza a sobrecarga de inicialização, alcançando latências abaixo de 100 ms na infraestrutura padrão do Google Cloud.
  • Alto rendimento: Com pipelines de decodificação capazes, ele sustenta centenas de tokens por segundo, desbloqueando experiências de usuário em tempo real em chatbots e aplicativos de streaming.
  • Suporte multimodal:Embora otimizado principalmente para texto, o Flash-Lite também aceita imagens, auditivo e vídeo entradas por meio da API Gemini, permitindo casos de uso versáteis, desde resumo de documentos até tarefas de visão leve.

Detalhes Técnicos

  • Raciocínio adaptativo: Gemini 2.5 Flash-Lite suporta sob demanda pensando, permitindo que os desenvolvedores aloquem recursos de computação somente quando for necessário um raciocínio mais profundo.
  • Integrações de ferramentas: Compatibilidade total com as ferramentas nativas do Gemini 2.5, incluindo Aterramento com a Pesquisa Google, Execução de Código, Contexto de URL e Chamada de função para fluxos de trabalho multimodais contínuos.
  • Protocolo de Contexto do Modelo (MCP): Aproveita o MCP do Google para buscar dados da web em tempo real, garantindo que as respostas sejam que vai mais à frente e contextualmente relevante.
  • Opções de implantação: Disponível através do CometAPI, API Gêmeos, VERTEX AI e Estúdio de IA do Google, com uma faixa de pré-visualização para os primeiros usuários experimentarem e fornecerem feedback.

Desempenho de referência de Gemini 2.5 Flash-Lite

  • Latência: Alcança até Tempos médios de resposta 50% menores comparado ao Gemini 2.5 Flash, com típico abaixo de 100 ms latências em benchmarks padrão de classificação e sumarização.
  • Produtividade: Otimizado para volume alto cargas de trabalho, sustentando dezenas de milhares de solicitações por minuto sem degradação do desempenho.
  • Preço-Desempenho: Demonstra uma Redução de 25% no custo por 1,000 tokens em comparação com sua contraparte em Flash, tornando-o o Pareto-ótimo escolha para implantações com custos sensíveis.
  • Adoção da Indústria: Os primeiros usuários relatam integração perfeita aos pipelines de produção, com métricas de desempenho alinhadas ou excedendo as projeções iniciais.

API Flash-Lite do Gemini 2.5


Casos de uso ideais

  • Tarefas de alta frequência e baixa complexidade: Marcação automatizada, análise de sentimentos e tradução em massa
  • Pipelines sensíveis a custos: Extração de dados de grandes corpora de documentos, sumarização periódica de lotes
  • Cenários de Edge e Mobile: Quando a latência é crítica, mas os orçamentos de recursos são limitados

Limitações de Gemini 2.5 Flash-Lite

  • Status de visualização: Pode sofrer alterações na API antes do GA; as integrações devem levar em conta possíveis mudanças de versão.
  • Sem ajustes finos instantâneos: Não é possível carregar pesos personalizados; confie na engenharia rápida e nas mensagens do sistema.
  • Criatividade Reduzida: Ajustado para tarefas determinísticas de alto rendimento; menos adequado para geração aberta ou escrita “criativa”.
  • Teto de Recursos: Escala linearmente apenas até ~16 vCPUs; além disso, os ganhos de produtividade diminuem.
  • Restrições multimodais: Suporta entradas de imagem/áudio, mas com fidelidade limitada; não é ideal para tarefas de visão pesada ou transcrição de áudio.
  • Compensação entre contexto e janela :Embora aceite até 1 M de tokens, a inferência prática nessa escala pode ter uma taxa de transferência degradada.

Como ligar Gemini 2.5 Flash-Lite API da CometAPI

Gemini 2.5 Flash-Lite Preços da API no CometAPI, 20% de desconto sobre o preço oficial:

  • Tokens de entrada: $0.08/ M tokens
  • Tokens de saída: US$ 0.32/M tokens

Etapas Necessárias

  • Faça o login no cometapi.com. Se você ainda não é nosso usuário, registre-se primeiro
  • Obtenha a chave de API da credencial de acesso da interface. Clique em "Adicionar Token" no token da API no centro pessoal, obtenha a chave de token: sk-xxxxx e envie.
  • Obtenha a URL deste site: https://api.cometapi.com/

Métodos de uso

  1. Selecione a opção "gemini-2.5-flash-lite” endpoint para enviar a solicitação de API e definir o corpo da solicitação. O método e o corpo da solicitação são obtidos da documentação da API do nosso site. Nosso site também oferece o teste Apifox para sua conveniência.
  2. Substituir com sua chave CometAPI real da sua conta.
  3. Insira sua pergunta ou solicitação no campo de conteúdo — é a isso que o modelo responderá.
  4. . Processe a resposta da API para obter a resposta gerada.

A CometAPI fornece uma API REST totalmente compatível — para uma migração perfeita. Detalhes importantes para Doc API:

Veja também Gêmeos 2.5 Pró

Leia Mais

500+ Modelos em Uma API

Até 20% de Desconto