ModelosPreçosEmpresarial
500+ APIs de Modelos de IA, Tudo em Uma API. Apenas na CometAPI
API de Modelos
Desenvolvedor
Início RápidoDocumentaçãoPainel de API
Empresa
Sobre nósEmpresarial
Recursos
Modelos de IABlogRegistro de AlteraçõesSuporte
Termos de ServiçoPolítica de Privacidade
© 2026 CometAPI · All rights reserved
Home/Models/Google/Gemini 3.1 Flash-Lite
G

Gemini 3.1 Flash-Lite

Entrada:$0.2/M
Saída:$1.2/M
Gemini 3.1 Flash-Lite é um modelo Tier-3 altamente eficiente em termos de custo e de baixa latência da série Gemini 3 do Google, projetado para fluxos de trabalho de IA em produção de alto volume, nos quais a taxa de processamento e a velocidade importam mais do que a profundidade máxima de raciocínio. Ele combina uma ampla janela de contexto multimodal com desempenho de inferência eficiente, a um custo inferior ao da maioria dos modelos emblemáticos.
Novo
Uso comercial
Playground
Visão Geral
Recursos
Preços
API
Versões

📊 Especificações técnicas

EspecificaçãoDetalhes
Família de modelosGemini 3 (Flash-Lite)
Janela de contextoAté 1 milhão de tokens (texto, imagens, áudio e vídeo multimodais)
Limite de tokens de saídaAté 64 K tokens
Tipos de entradaTexto, imagens, áudio, vídeo
Base da arquitetura centralBaseado no Gemini 3 Pro
Canais de implantaçãoGemini API (Google AI Studio), Vertex AI
Preços (preview)~US$0,25 por 1M de tokens de entrada, ~US$1,50 por 1M de tokens de saída
Controles de raciocínio“Níveis de pensamento” ajustáveis (por exemplo, de mínimo a alto)

🔍 O que é o Gemini 3.1 Flash-Lite?

Gemini 3.1 Flash-Lite é a variante de menor custo e menor footprint da série Gemini 3 do Google, otimizada para cargas de trabalho massivas de IA em escala — especialmente quando menor latência, menor custo por token e alta taxa de transferência são prioridades. Ele preserva a espinha dorsal central de raciocínio multimodal do Gemini 3 Pro, ao mesmo tempo em que é voltado para casos de uso de processamento em massa, como tradução, classificação, moderação de conteúdo, geração de UI e síntese de dados estruturados.

✨ Principais recursos

  1. Janela de contexto ultra-ampla: Lida com até 1 M de tokens de entrada multimodal, possibilitando raciocínio sobre documentos longos e processamento de contexto de vídeo/áudio.
  2. Execução com boa relação custo-benefício: Custos por token significativamente menores em comparação com modelos Flash-Lite anteriores e concorrentes, permitindo uso em alto volume.
  3. Alta taxa de transferência e baixa latência: ~2,5× mais rápido no tempo até o primeiro token e ~45 % mais rápido na taxa de saída em comparação com o Gemini 2.5 Flash.
  4. Controles dinâmicos de raciocínio: Os “níveis de pensamento” permitem que desenvolvedores ajustem desempenho versus raciocínio mais profundo por solicitação.
  5. Suporte multimodal: Processamento nativo de imagens, áudio, vídeo e texto em um espaço de contexto unificado.
  6. Acesso flexível à API: Disponível via Gemini API no Google AI Studio e em fluxos corporativos no Vertex AI.

📈 Desempenho em benchmarks

As métricas a seguir mostram a eficiência e capacidade do Gemini 3.1 Flash-Lite em comparação com variantes Flash/Lite anteriores e outros modelos (relatado em março de 2026):

BenchmarkGemini 3.1 Flash-LiteGemini 2.5 Flash DynamicGPT-5 Mini
GPQA Diamond (conhecimento científico)86.9 %66.7 %82.3 %
MMMU-Pro (raciocínio multimodal)76.8 %51.0 %74.1 %
CharXiv (raciocínio complexo sobre gráficos)73.2 %55.5 %75.5 % (+python)
Video-MMMU84.8 %60.7 %82.5 %
LiveCodeBench (raciocínio de código)72.0 %34.3 %80.4 %
1M Long-Context12.3 %5.4 %Não suportado

Essas pontuações indicam que o Flash-Lite mantém raciocínio competitivo e compreensão multimodal mesmo com seu design orientado à eficiência, frequentemente superando variantes Flash mais antigas em benchmarks-chave.

⚖️ Comparação com modelos relacionados

RecursoGemini 3.1 Flash-LiteGemini 3.1 Pro
Custo por tokenMenor (camada de entrada)Maior (premium)
Latência / throughputOtimizado para velocidadeEquilibrado com profundidade
Profundidade de raciocínioAjustável, mas mais superficialRaciocínio profundo mais forte
Foco de caso de usoPipelines em massa, moderação, traduçãoTarefas de raciocínio críticas
Janela de contexto1 M de tokens1 M de tokens (igual)

O Flash-Lite é voltado para escala e custo; o Pro é para raciocínio profundo de alta precisão.

🧠 Casos de uso empresariais

  • Tradução e moderação em alto volume: Pipelines de idioma e conteúdo em tempo real com baixa latência.
  • Extração e classificação de dados em massa: Processamento de grandes corpus com economia eficiente de tokens.
  • Geração de UI/UX: JSON estruturado, templates de dashboard e scaffolding de front-end.
  • Prompting de simulação: Rastreamento lógico de estado ao longo de interações estendidas.
  • Aplicações multimodais: Raciocínio informado por vídeo, áudio e imagem em contextos unificados.

🧪 Limitações

  • A profundidade do raciocínio e a precisão analítica podem ficar atrás do Gemini 3.1 Pro em tarefas complexas e críticas. :
  • Resultados de benchmark, como fusão de contexto longo, mostram espaço para melhoria em relação aos modelos flagship.
  • Controles dinâmicos de raciocínio fazem trade-off entre velocidade e rigor; nem todos os níveis garantem a mesma qualidade de saída.

GPT-5.3 Chat (Alias: gpt-5.3-chat-latest) — Visão geral

GPT-5.3 Chat é o modelo de chat de produção mais recente da OpenAI, oferecido como o endpoint gpt-5.3-chat-latest na API oficial e responsável pela experiência conversacional diária do ChatGPT. Ele se concentra em melhorar a qualidade das interações do dia a dia — tornando as respostas mais fluídas, mais precisas e melhor contextualizadas — ao mesmo tempo em que mantém fortes capacidades técnicas herdadas da família GPT-5 mais ampla. :contentReference[oaicite:1]{index=1}


📊 Especificações técnicas

EspecificaçãoDetalhes
Nome/alias do modeloGPT-5.3 Chat / gpt-5.3-chat-latest
ProvedorOpenAI
Janela de contexto128.000 tokens
Máx. de tokens de saída por solicitação16.384 tokens
Corte de conhecimento31 de agosto de 2025
Modalidades de entradaEntradas de texto e imagem (somente visão)
Modalidades de saídaTexto
Chamada de funçãoSuportada
Saídas estruturadasSuportadas
Respostas em streamingSuportadas
Fine-tuningNão suportado
Distillation / embeddingsDistillation não suportado; embeddings suportados
Endpoints de uso típicosChat completions, Responses, Assistants, Batch, Realtime
Chamada de função e ferramentasChamada de função ativada; suporta busca na web e em arquivos via Responses API

🧠 O que torna o GPT-5.3 Chat único

GPT-5.3 Chat representa um refinamento incremental das capacidades orientadas a chat na linhagem GPT-5. O objetivo central desta variante é fornecer respostas conversacionais mais naturais, contextualmente coerentes e amigáveis ao usuário do que modelos anteriores, como GPT-5.2 Instant. As melhorias são voltadas para:

  • Tom dinâmico e natural com menos avisos inúteis e respostas mais diretas.
  • Melhor compreensão de contexto e relevância em cenários comuns de chat.
  • Integração mais fluida com casos de uso avançados de chat, incluindo diálogo multi-turno, sumarização e assistência conversacional.

O GPT-5.3 Chat é recomendado para desenvolvedores e aplicações interativas que precisam das melhorias conversacionais mais recentes sem a profundidade de raciocínio especializada de futuras variantes “Thinking” ou “Pro” do GPT-5.3 (que ainda estão por vir).


🚀 Principais recursos

  • Grande janela de contexto para chat: 128K tokens permitem históricos de conversa ricos e rastreamento de contexto extenso. :contentReference[oaicite:17]{index=17}
  • Melhoria na qualidade das respostas: Fluxo conversacional refinado com menos ressalvas desnecessárias ou recusas excessivamente cautelosas. :contentReference[oaicite:18]{index=18}
  • Suporte oficial à API: Endpoints totalmente suportados para chat, processamento em lote, saídas estruturadas e fluxos de trabalho em tempo real.
  • Suporte versátil de entrada: Aceita e contextualiza entradas de texto e imagem, adequado para casos de uso de chat multimodal.
  • Chamada de função e saída estruturada: Permite padrões de aplicação estruturados e interativos via API. :contentReference[oaicite:21]{index=21}
  • Ampla compatibilidade com o ecossistema: Funciona com v1/chat/completions, v1/responses, Assistants e outras interfaces modernas da API OpenAI.

📈 Benchmarks e comportamento típicos

📈 Desempenho em benchmarks

A OpenAI e relatórios independentes mostram melhora no desempenho no mundo real:

MétricaGPT-5.3 Instant vs GPT-5.2 Instant
Taxa de alucinação com busca na web−26.8%
Taxa de alucinação sem busca−19.7%
Erros factuais sinalizados por usuários (web)~−22.5%
Erros factuais sinalizados por usuários (interno)~−9.6%

Vale notar que o foco do GPT-5.3 em qualidade conversacional no mundo real significa que melhorias nas pontuações de benchmark (como métricas padronizadas de NLP) têm menos destaque nesta versão — as melhorias aparecem com mais clareza em métricas de experiência do usuário em vez de pontuações brutas de teste.

Em comparações do setor, variantes de chat da família GPT-5 são conhecidas por superar módulos GPT-4 anteriores em relevância para chat cotidiano e rastreamento contextual, embora tarefas especializadas de raciocínio ainda possam favorecer variantes “Pro” dedicadas ou endpoints otimizados para raciocínio.


🤖 Casos de uso

O GPT-5.3 Chat é adequado para:

  • Bots de suporte ao cliente e assistentes conversacionais
  • Agentes interativos de tutorial ou educação
  • Sumarização e busca conversacional
  • Agentes internos de conhecimento e assistentes de chat para equipes
  • Perguntas e respostas multimodais (texto + imagens)

Seu equilíbrio entre qualidade conversacional e versatilidade da API o torna ideal para aplicações interativas que combinam diálogo natural com saídas de dados estruturados.

🔍 Limitações

  • Não é a variante de raciocínio mais profundo: Para profundidade analítica crítica e de alto risco, futuras variantes GPT-5.3 Thinking ou Pro podem ser mais apropriadas.
  • Saídas multimodais limitadas: Embora imagens de entrada sejam suportadas, geração completa de imagem/vídeo ou fluxos de saída multimodal ricos não são o foco principal desta variante.
  • Fine-tuning não é suportado: Não é possível fazer fine-tuning deste modelo, embora seja possível direcionar o comportamento por meio de prompts de sistema.

Como acessar a API do Gemini 3.1 flash lite

Etapa 1: Cadastre-se para obter uma chave de API

Faça login em cometapi.com. Se você ainda não for nosso usuário, registre-se primeiro. Entre no seu console do CometAPI. Obtenha a credencial de acesso, a chave de API da interface. Clique em “Add Token” na seção de token de API no centro pessoal, obtenha a chave do token: sk-xxxxx e envie.

cometapi-key

Etapa 2: Envie solicitações para a API do Gemini 3.1 flash lite

Selecione o endpoint “` gemini-3.1-flash-lite” para enviar a solicitação à API e defina o corpo da solicitação. O método da solicitação e o corpo da solicitação são obtidos na documentação da API em nosso site. Nosso site também fornece teste via Apifox para sua conveniência. Substitua <YOUR_API_KEY> pela sua chave real do CometAPI da sua conta. A URL base é Gemini Generating Content

Insira sua pergunta ou solicitação no campo de conteúdo — é isso ao que o modelo responderá. Processe a resposta da API para obter a resposta gerada.

Etapa 3: Recuperar e verificar resultados

Processe a resposta da API para obter a resposta gerada. Após o processamento, a API responde com o status da tarefa e os dados de saída.

FAQ

What tasks is Gemini 3.1 Flash-Lite best suited for?

Para quais tarefas o Gemini 3.1 Flash-Lite é mais adequado?

Gemini 3.1 Flash-Lite is optimized for high-volume, latency-sensitive workflows like translation, content moderation, classification, UI/dashboard generation, and simulation prompt pipelines, where speed and low cost are priorities.

O Gemini 3.1 Flash-Lite é otimizado para fluxos de trabalho de alto volume e sensíveis à latência, como tradução, moderação de conteúdo, classificação, geração de UI/dashboard e pipelines de prompts de simulação, nos quais velocidade e baixo custo são prioridades.

What is the context window and output capability of Gemini 3.1 Flash-Lite?

Qual é a janela de contexto e a capacidade de saída do Gemini 3.1 Flash-Lite?

Gemini 3.1 Flash-Lite supports a large context window of up to **1 million tokens** for multimodal inputs including text, images, audio, and video, with up to **64 K tokens** output.

O Gemini 3.1 Flash-Lite oferece suporte a uma grande janela de contexto de até 1 milhão de tokens para entradas multimodais, incluindo texto, imagens, áudio e vídeo, com saída de até 64 K tokens.

How does Gemini 3.1 Flash-Lite compare to Gemini 2.5 Flash in performance and cost?

Como o Gemini 3.1 Flash-Lite se compara ao Gemini 2.5 Flash em desempenho e custo?

Compared with Gemini 2.5 Flash models, Gemini 3.1 Flash-Lite delivers ~2.5× faster time-to-first-answer and ~45 % higher output throughput while being significantly cheaper per million tokens for both input and output. }

Em comparação com os modelos Gemini 2.5 Flash, o Gemini 3.1 Flash-Lite oferece um tempo até a primeira resposta ~2,5× mais rápido e uma taxa de transferência de saída ~45% maior, além de ser significativamente mais barato por milhão de tokens, tanto para entrada quanto para saída. }

Does Gemini 3.1 Flash-Lite support adjustable reasoning depth?

O Gemini 3.1 Flash-Lite oferece suporte a profundidade de raciocínio ajustável?

Yes — it offers multiple reasoning or “thinking” levels (e.g., minimal, low, medium, high) so developers can trade off speed for deeper reasoning on complex tasks. :contentReference[oaicite:3]{index=3}

Sim — ele oferece vários níveis de raciocínio ou “pensamento” (por exemplo, mínimo, baixo, médio, alto), para que os desenvolvedores possam equilibrar velocidade e raciocínio mais profundo em tarefas complexas. :contentReference[oaicite:3]{index=3}

What are typical benchmark strengths of Gemini 3.1 Flash-Lite?

Quais são os pontos fortes típicos do Gemini 3.1 Flash-Lite em benchmarks?

On benchmarks such as GPQA Diamond (scientific knowledge) and MMMU Pro (multimodal understanding), Gemini 3.1 Flash-Lite scores strongly relative to previous Flash-Lite models, with GPQA ~86.9 % and MMMU ~76.8 % in official evaluations.

Em benchmarks como GPQA Diamond (conhecimento científico) e MMMU Pro (compreensão multimodal), o Gemini 3.1 Flash-Lite apresenta desempenho forte em relação aos modelos Flash-Lite anteriores, com GPQA ~86,9% e MMMU ~76,8% nas avaliações oficiais.

How can I access Gemini 3.1 Flash-Lite via API?

Como posso acessar o Gemini 3.1 Flash-Lite via API?

You can use the `gemini-3.1-flash-lite-preview` endpoint through the CometAPI for enterprise integration.

Você pode usar o endpoint gemini-3.1-flash-lite-preview por meio da CometAPI para integração empresarial.

When should I choose Gemini 3.1 Flash-Lite vs Gemini 3.1 Pro?

Quando devo escolher o Gemini 3.1 Flash-Lite em vez do Gemini 3.1 Pro?

Choose Flash-Lite when throughput, latency, and cost are priorities for large volume tasks; choose Pro for tasks requiring highest reasoning depth, analytical accuracy, or mission-critical comprehension.

Escolha o Flash-Lite quando throughput, latência e custo forem prioridades para tarefas de grande volume; escolha o Pro para tarefas que exijam maior profundidade de raciocínio, precisão analítica ou compreensão crítica para a missão.

Recursos para Gemini 3.1 Flash-Lite

Explore os principais recursos do Gemini 3.1 Flash-Lite, projetado para aprimorar o desempenho e a usabilidade. Descubra como essas capacidades podem beneficiar seus projetos e melhorar a experiência do usuário.

Preços para Gemini 3.1 Flash-Lite

Explore preços competitivos para Gemini 3.1 Flash-Lite, projetado para atender diversos orçamentos e necessidades de uso. Nossos planos flexíveis garantem que você pague apenas pelo que usar, facilitando o dimensionamento conforme suas necessidades crescem. Descubra como Gemini 3.1 Flash-Lite pode aprimorar seus projetos mantendo os custos gerenciáveis.
Preço do Comet (USD / M Tokens)Preço Oficial (USD / M Tokens)Desconto
Entrada:$0.2/M
Saída:$1.2/M
Entrada:$0.25/M
Saída:$1.5/M
-20%

Código de exemplo e API para Gemini 3.1 Flash-Lite

Acesse código de exemplo abrangente e recursos de API para Gemini 3.1 Flash-Lite para otimizar seu processo de integração. Nossa documentação detalhada fornece orientação passo a passo, ajudando você a aproveitar todo o potencial do Gemini 3.1 Flash-Lite em seus projetos.
POST
/v1/chat/completions
POST
/v1beta/models/{model}:{operator}
Python
JavaScript
Curl
from google import genai
import os

# Get your CometAPI key from https://www.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": BASE_URL},
    api_key=COMETAPI_KEY,
)

response = client.models.generate_content(
    model="gemini-3.1-flash-lite-preview",
    contents="Explain how AI works in a few words",
)

print(response.text)

Python Code Example

from google import genai
import os

# Get your CometAPI key from https://www.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": BASE_URL},
    api_key=COMETAPI_KEY,
)

response = client.models.generate_content(
    model="gemini-3.1-flash-lite-preview",
    contents="Explain how AI works in a few words",
)

print(response.text)

JavaScript Code Example

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1beta";
const model = "gemini-3.1-flash-lite-preview";
const operator = "generateContent";

const response = await fetch(`${base_url}/models/${model}:${operator}`, {
  method: "POST",
  headers: {
    "Content-Type": "application/json",
    Authorization: api_key,
  },
  body: JSON.stringify({
    contents: [
      {
        parts: [{ text: "Explain how AI works in a few words" }],
      },
    ],
  }),
});

const data = await response.json();
console.log(data.candidates[0].content.parts[0].text);

Curl Code Example

curl "https://api.cometapi.com/v1beta/models/gemini-3.1-flash-lite-preview:generateContent" \
  -H "Authorization: $COMETAPI_KEY" \
  -H 'Content-Type: application/json' \
  -X POST \
  -d '{
    "contents": [
      {
        "parts": [
          {
            "text": "Explain how AI works in a few words"
          }
        ]
      }
    ]
  }'

Versões do Gemini 3.1 Flash-Lite

O motivo pelo qual Gemini 3.1 Flash-Lite possui múltiplas versões instantâneas pode incluir fatores como variações na saída após atualizações que exigem versões antigas para consistência, fornecendo aos desenvolvedores um período de transição para adaptação e migração, e diferentes versões correspondentes a endpoints globais ou regionais para otimizar a experiência do usuário. Para diferenças detalhadas entre versões, consulte a documentação oficial.
Model idDescriçãoDisponibilidadeSolicitação
gemini-3-1-flashAponta automaticamente para o modelo mais recente✅Gemini Generating Content
gemini-3-1-flash-previewPré-visualização oficial✅Gemini Generating Content
gemini-3.1-flash-lite-preview-thinkingversão com raciocínio✅Gemini Generating Content
gemini-3.1-flash-lite-thinkingversão com raciocínio✅Gemini Generating Content

Mais modelos

C

Claude Opus 4.7

Entrada:$4/M
Saída:$20/M
O modelo mais inteligente para agentes e programação
C

Claude Opus 4.6

Entrada:$4/M
Saída:$20/M
Claude Opus 4.6 é o modelo de linguagem de grande porte da classe “Opus” da Anthropic, lançado em fevereiro de 2026. É posicionado como um cavalo de batalha para o trabalho do conhecimento e fluxos de trabalho de pesquisa — aprimorando o raciocínio em contextos longos, o planejamento em múltiplas etapas, o uso de ferramentas (incluindo fluxos de trabalho de software agente) e tarefas de uso do computador, como a geração automatizada de slides e planilhas.
A

Claude Sonnet 4.6

Entrada:$2.4/M
Saída:$12/M
Claude Sonnet 4.6 é o nosso modelo Sonnet mais capaz até agora. É uma atualização completa das capacidades do modelo em programação, uso do computador, raciocínio de longo contexto, planejamento de agentes, trabalho de conhecimento e design. Sonnet 4.6 também apresenta uma janela de contexto de 1M tokens em beta.
O

GPT-5.4 nano

Entrada:$0.16/M
Saída:$1/M
O GPT-5.4 nano foi projetado para tarefas em que a velocidade e o custo são os que mais importam, como classificação, extração de dados, ranqueamento e subagentes.
O

GPT-5.4 mini

Entrada:$0.6/M
Saída:$3.6/M
GPT-5.4 mini traz os pontos fortes do GPT-5.4 para um modelo mais rápido e mais eficiente, projetado para cargas de trabalho de alto volume.
Q

Qwen3.6-Plus

Entrada:$0.32/M
Saída:$1.92/M
Qwen 3.6-Plus já está disponível, com capacidades aprimoradas para desenvolvimento de código e maior eficiência em reconhecimento e inferência multimodais, tornando a experiência Vibe Coding ainda melhor.

Blogs relacionados

Como obter o Gemini 3.1 Deep Think
Mar 13, 2026

Como obter o Gemini 3.1 Deep Think

Gemini 3.1 Deep Think é um modo de raciocínio avançado, desenvolvido pelo Google e pelo Google DeepMind, que permite aos sistemas de IA realizar raciocínio em múltiplas etapas, análise científica e resolução de problemas complexos. Atualmente, está disponível principalmente por meio de assinaturas do Google AI Ultra, do Gemini app e de ferramentas para desenvolvedores, como Gemini API e AI Studio.
Google apresenta o Gemini 3.1 Flash-Lite — um LLM rápido e de baixo custo
Mar 5, 2026
gemini-3-1-flash-lite

Google apresenta o Gemini 3.1 Flash-Lite — um LLM rápido e de baixo custo

O Google apresentou o Gemini 3.1 Flash-Lite, o mais recente membro da família Gemini 3, projetado especificamente como um motor de alta taxa de transferência, baixa latência e custo-eficiente para cargas de trabalho de desenvolvedores e corporativas. O Google posiciona o Flash-Lite como o “mais rápido e mais custo-eficiente” modelo da linha Gemini 3: uma variante leve que visa oferecer interações em streaming, processamento em segundo plano em larga escala e tarefas de produção de alta frequência (por exemplo, tradução, extração, geração de UI e classificação em grande volume) a um preço muito mais baixo do que seus equivalentes Pro.