API Flash-Lite do Gemini 2.5

O API Flash-Lite do Gemini 2.5 representa a mais recente oferta do Google em sua família de modelos de raciocínio híbridos, projetados para fornecer eficiência de custo incomparável e latência ultrabaixa para aplicações de alto volume e sensíveis à latência.

Informações básicas e recursos

Anunciado em uma versão de pré-visualização em 17 de junho de 2025, o Flash-Lite completa a linha Gemini 2.5 - junto com o Flash e o Pro - fornecendo aos desenvolvedores uma opção otimizada para velocidade, preço-desempenho e pensamento adaptativo capacidades.

Você pode começar a usar o Gemini 2.5 Flash-Lite especificando "gemini-2.5-flash-lite" no seu código. Se estiver usando uma versão de pré-visualização, você pode alternar para "gemini-2.5-flash-lite", que é o mesmo que a versão de pré-visualização. O Google planeja remover o alias de pré-visualização do Flash-Lite em 25 de agosto.


Estabilidade	Modelo	Data
Estável (GA)	`gemini-2.5-flash-lite`	22 de julho de 2025
Prévia experimental	`gemini-2.5-flash-lite-06-17`	Período de disponibilidade: 17 de junho a 25 de agosto de 2025
última versão	`gemini-2.5-flash-lite-preview-09-2025`	09-2025

Controle do Pensamento: Implementa um orçamento de pensamento dinâmico por meio de um parâmetro de API, com pensamento desativado por padrão para maximizar a velocidade e reduzir custos.
Baixa latência: Projetado para um tempo rápido para o primeiro tokenO Flash-Lite minimiza a sobrecarga de inicialização, alcançando latências abaixo de 100 ms na infraestrutura padrão do Google Cloud.
Alto rendimento: Com pipelines de decodificação capazes, ele sustenta centenas de tokens por segundo, desbloqueando experiências de usuário em tempo real em chatbots e aplicativos de streaming.
Suporte multimodal:Embora otimizado principalmente para texto, o Flash-Lite também aceita imagens, auditivo e vídeo entradas por meio da API Gemini, permitindo casos de uso versáteis, desde resumo de documentos até tarefas de visão leve.

Detalhes Técnicos

Raciocínio adaptativo: Gemini 2.5 Flash-Lite suporta sob demanda pensando, permitindo que os desenvolvedores aloquem recursos de computação somente quando for necessário um raciocínio mais profundo.
Integrações de ferramentas: Compatibilidade total com as ferramentas nativas do Gemini 2.5, incluindo Aterramento com a Pesquisa Google, Execução de Código, Contexto de URL e Chamada de função para fluxos de trabalho multimodais contínuos.
Protocolo de Contexto do Modelo (MCP): Aproveita o MCP do Google para buscar dados da web em tempo real, garantindo que as respostas sejam que vai mais à frente e contextualmente relevante.
Opções de implantação: Disponível através do CometAPI, API Gêmeos, VERTEX AI e Estúdio de IA do Google, com uma faixa de pré-visualização para os primeiros usuários experimentarem e fornecerem feedback.

Desempenho de referência de `Gemini 2.5 Flash-Lite`

Latência: Alcança até Tempos médios de resposta 50% menores comparado ao Gemini 2.5 Flash, com típico abaixo de 100 ms latências em benchmarks padrão de classificação e sumarização.
Produtividade: Otimizado para volume alto cargas de trabalho, sustentando dezenas de milhares de solicitações por minuto sem degradação do desempenho.
Preço-Desempenho: Demonstra uma Redução de 25% no custo por 1,000 tokens em comparação com sua contraparte em Flash, tornando-o o Pareto-ótimo escolha para implantações com custos sensíveis.
Adoção da Indústria: Os primeiros usuários relatam integração perfeita aos pipelines de produção, com métricas de desempenho alinhadas ou excedendo as projeções iniciais.

API Flash-Lite do Gemini 2.5

Casos de uso ideais

Tarefas de alta frequência e baixa complexidade: Marcação automatizada, análise de sentimentos e tradução em massa
Pipelines sensíveis a custos: Extração de dados de grandes corpora de documentos, sumarização periódica de lotes
Cenários de Edge e Mobile: Quando a latência é crítica, mas os orçamentos de recursos são limitados

Limitações de `Gemini 2.5 Flash-Lite`

Status de visualização: Pode sofrer alterações na API antes do GA; as integrações devem levar em conta possíveis mudanças de versão.
Sem ajustes finos instantâneos: Não é possível carregar pesos personalizados; confie na engenharia rápida e nas mensagens do sistema.
Criatividade Reduzida: Ajustado para tarefas determinísticas de alto rendimento; menos adequado para geração aberta ou escrita “criativa”.
Teto de Recursos: Escala linearmente apenas até ~16 vCPUs; além disso, os ganhos de produtividade diminuem.
Restrições multimodais: Suporta entradas de imagem/áudio, mas com fidelidade limitada; não é ideal para tarefas de visão pesada ou transcrição de áudio.
Compensação entre contexto e janela :Embora aceite até 1 M de tokens, a inferência prática nessa escala pode ter uma taxa de transferência degradada.

Como ligar `Gemini 2.5 Flash-Lite` API da CometAPI

Gemini 2.5 Flash-Lite Preços da API no CometAPI, 20% de desconto sobre o preço oficial:

Tokens de entrada: $0.08/ M tokens
Tokens de saída: US$ 0.32/M tokens

Etapas Necessárias

Faça o login no cometapi.com. Se você ainda não é nosso usuário, registre-se primeiro
Obtenha a chave de API da credencial de acesso da interface. Clique em "Adicionar Token" no token da API no centro pessoal, obtenha a chave de token: sk-xxxxx e envie.
Obtenha a URL deste site: https://api.cometapi.com/

Métodos de uso

Selecione a opção "gemini-2.5-flash-lite” endpoint para enviar a solicitação de API e definir o corpo da solicitação. O método e o corpo da solicitação são obtidos da documentação da API do nosso site. Nosso site também oferece o teste Apifox para sua conveniência.
Substituir com sua chave CometAPI real da sua conta.
Insira sua pergunta ou solicitação no campo de conteúdo — é a isso que o modelo responderá.
. Processe a resposta da API para obter a resposta gerada.

A CometAPI fornece uma API REST totalmente compatível — para uma migração perfeita. Detalhes importantes para Doc API:

URL base: https://api.cometapi.com/v1/chat/completions
Nomes de modelo: "gemini-2.5-flash-lite"
Autenticação: Bearer YOUR_CometAPI_API_KEY cabeçalho

Veja também Gêmeos 2.5 Pró

Informações básicas e recursos

Detalhes Técnicos

Desempenho de referência de `Gemini 2.5 Flash-Lite`

Casos de uso ideais

Limitações de `Gemini 2.5 Flash-Lite`

Como ligar `Gemini 2.5 Flash-Lite` API da CometAPI

Gemini 2.5 Flash-Lite Preços da API no CometAPI, 20% de desconto sobre o preço oficial:

Etapas Necessárias

Métodos de uso

Leia Mais

500+ Modelos em Uma API

API Flash-Lite do Gemini 2.5

Informações básicas e recursos

Detalhes Técnicos

Desempenho de referência de Gemini 2.5 Flash-Lite

Casos de uso ideais

Limitações de Gemini 2.5 Flash-Lite

Como ligar Gemini 2.5 Flash-Lite API da CometAPI

Gemini 2.5 Flash-Lite Preços da API no CometAPI, 20% de desconto sobre o preço oficial:

Etapas Necessárias

Métodos de uso

Leia Mais

500+ Modelos em Uma API

Desempenho de referência de `Gemini 2.5 Flash-Lite`

Limitações de `Gemini 2.5 Flash-Lite`

Como ligar `Gemini 2.5 Flash-Lite` API da CometAPI