Home/Models/Google/Gemini 3 Flash
G

Gemini 3 Flash

Entrada:$0.4/M
Saída:$2.4/M
Contexto:1,048,576
Saída Máxima:65.5k
O Gemini 3 Flash é um modelo multimodal em larga escala do Google, leve e eficiente, projetado para cenários do mundo real que exigem respostas rápidas e baixa latência.
Novo
Uso comercial
Playground
Visão Geral
Recursos
Preços
API
Versões

O que é o Gemini 3 flash

“Gemini 3 Flash” é o membro Flash/fast da família Gemini-3: uma variante mais leve, de menor latência e com custo eficiente dos modelos Gemini-3 do Google, destinada a aplicações de alto throughput, em tempo real e sensíveis à escala. Uma variante da família de modelos da API do Gemini que permite aos desenvolvedores chamar um modelo no estilo Gemini 3 com baixa latência e otimizado para custo pela API da CometAPI (mesma superfície de API que outros modelos Gemini). Ela expõe as mesmas entradas multimodais e ferramentas de saída estruturada, mas prioriza a velocidade de inferência e a taxa de transferência.

Principais recursos :

  • Baixa latência / alto throughput: ajustado para respostas rápidas e eficiência de custo (ponto de design do Flash).
  • Suporte a entrada multimodal: texto, imagens, trechos de vídeo e áudio em muitas variantes Flash (as entradas de modelo na API listam os tipos de entrada suportados por variante).
  • Chamadas de função e saídas estruturadas: imposição de JSON/saída estruturada para integração com ferramentas e agentes.
  • Suporte a Agente/Ferramentas: integra-se ao grounding do Google Search, chamadas de função/ferramenta e frameworks de agentes no ecossistema Gemini.

Como o Gemini 3 Flash se compara a outros modelos

  • Versus Gemini-3 Pro (mesma família): Flash = otimizado para velocidade/custo; Pro = raciocínio superior, fidelidade multimodal e Deep Think. Escolha Flash para UIs em tempo real; Pro para tarefas sensíveis à precisão.
  • Versus Gemini anterior (2.5 Flash): a família Gemini-3 melhora o raciocínio e o desempenho multimodal; o ponto de design do Flash continua a focar preço/desempenho. Se você usa atualmente o 2.5 Flash, o Gemini-3 Fast/Flash pretende oferecer melhor qualidade com latência/custo semelhantes.

Casos de uso práticos (onde o Flash se destaca)

  • Chatbots em tempo real e agentes de voz: baixa latência para UIs conversacionais e aplicações de áudio em streaming.
  • Suporte ao cliente e sumarização em alto volume: sumarização econômica de transcrições longas em escala.
  • Inferência na borda ou incorporada, onde o tempo de resposta importa: use variantes no estilo flash/lite para SLAs rígidos.
  • Pipelines de análise/ingestão de documentos em massa: Flash para indexação e pré-processamento; escalone para o Pro para extração/análise de alto valor.
  • Assistentes de código em tempo real / plug-ins de IDE: conclusões de código rápidas com menor custo de cobrança (valide com o Pro para refatorações complexas).

Como acessar a API do Gemini 3 flash

Etapa 1: Cadastre-se para obter a chave de API

Faça login em cometapi.com. Se você ainda não é nosso usuário, registre-se primeiro. Acesse seu console da CometAPI. Obtenha a chave de API de credencial de acesso da interface. Clique em “Add Token” no token de API no centro pessoal, obtenha a chave do token: sk-xxxxx e envie.

Step 2: Send Requests to Gemini 3 flash API

Selecione o endpoint “gemini-3-flash” para enviar a solicitação de API e defina o corpo da solicitação. O método e o corpo da solicitação são obtidos na documentação da API do nosso site. Nosso site também fornece teste no Apifox para sua conveniência. Substitua <YOUR_API_KEY> pela sua chave real da CometAPI na sua conta. A URL base é Geração de conteúdo do Gemini e Chat.

Insira sua pergunta ou solicitação no campo de conteúdo — é isso que o modelo responderá. Processe a resposta da API para obter a resposta gerada.

Etapa 3: Recuperar e verificar os resultados

Processe a resposta da API para obter a resposta gerada. Após o processamento, a API responde com o status da tarefa e os dados de saída.

Veja também API de Pré-visualização do Gemini 3 Pro

FAQ

How does Gemini 3 Flash deliver Pro-level intelligence at Flash pricing?

Gemini 3 Flash is Google's most balanced model, offering frontier-level reasoning capabilities at $0.50/$3 per million tokens—approximately 4x cheaper than Gemini 3 Pro while maintaining comparable intelligence for most tasks.

What thinking levels does Gemini 3 Flash support?

Gemini 3 Flash supports four thinking levels: minimal (near-zero latency), low, medium, and high—giving developers granular control over the reasoning depth vs. speed tradeoff that Gemini 3 Pro doesn't offer.

Does Gemini 3 Flash have a free tier in the API?

Yes, Gemini 3 Flash (gemini-3-flash-preview) has a free tier in the Gemini API, unlike Gemini 3 Pro which currently requires paid usage for API access.

What are Thought Signatures and why are they required for Gemini 3 Flash?

Thought Signatures are encrypted representations of the model's internal reasoning that must be circulated back in multi-turn conversations—required even at minimal thinking level for Gemini 3 Flash to maintain reasoning context and enable function calling.

Can Gemini 3 Flash combine structured outputs with Google Search grounding?

Yes, Gemini 3 Flash uniquely supports combining structured outputs (JSON schema) with built-in tools like Google Search, URL Context, and Code Execution in the same request—enabling grounded, type-safe responses.

How does media_resolution affect Gemini 3 Flash performance?

The media_resolution parameter controls token usage per image/video frame: low (280 tokens), medium (560), high (1120), or ultra_high for images. For video, low and medium are both capped at 70 tokens per frame to optimize context usage.

What tools does Gemini 3 Flash support?

Gemini 3 Flash supports Google Search, File Search, Code Execution, URL Context, and standard function calling. However, Google Maps grounding and Computer Use are not yet supported in Gemini 3 models.

Recursos para Gemini 3 Flash

Explore os principais recursos do Gemini 3 Flash, projetado para aprimorar o desempenho e a usabilidade. Descubra como essas capacidades podem beneficiar seus projetos e melhorar a experiência do usuário.

Preços para Gemini 3 Flash

Explore preços competitivos para Gemini 3 Flash, projetado para atender diversos orçamentos e necessidades de uso. Nossos planos flexíveis garantem que você pague apenas pelo que usar, facilitando o dimensionamento conforme suas necessidades crescem. Descubra como Gemini 3 Flash pode aprimorar seus projetos mantendo os custos gerenciáveis.

Correction: gemini-3-flash variants (same price across variants)

Model familyVariant (model name)Input price (USD / 1M tokens)Output price (USD / 1M tokens)
gemini-3-flashgemini-3-flash$0.40$2.40
gemini-3-flashgemini-3-flash-preview$0.40$2.40
gemini-3-flashgemini-3-flash-all$0.40$2.40
gemini-3-flashgemini-3-flash-thinking$0.40$2.40
gemini-3-flashgemini-3-flash-preview-thinking$0.40$2.40

Código de exemplo e API para Gemini 3 Flash

Gemini 3 Flash é um modelo de linguagem de grande escala (LLM) apenas de texto, disponibilizado por meio da API hospedada do CometAPI (e espelhado por camadas de inferência de fornecedores). A API oferece suporte a padrões convencionais de chat/completion, respostas em streaming, invocação de funções/ferramentas, saída JSON estruturada e vários modos de “pensamento” projetados para fluxos de trabalho em estilo de agente (intercalado / preservado / em nível de turno).
Python
JavaScript
Curl
from google import genai
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": BASE_URL},
    api_key=COMETAPI_KEY,
)

response = client.models.generate_content(
    model="gemini-3-flash",
    contents="Explain how AI works in a few words",
)

print(response.text)

Versões do Gemini 3 Flash

O motivo pelo qual Gemini 3 Flash possui múltiplas versões instantâneas pode incluir fatores como variações na saída após atualizações que exigem versões antigas para consistência, fornecendo aos desenvolvedores um período de transição para adaptação e migração, e diferentes versões correspondentes a endpoints globais ou regionais para otimizar a experiência do usuário. Para diferenças detalhadas entre versões, consulte a documentação oficial.
ID do modeloDescriçãoDisponibilidadeSolicitação
gemini-3-flash-allA tecnologia utilizada é não oficial e a geração é instável, mas com Direct Internet etc., formato Chat✅Chat formato
gemini-3-flashAponta automaticamente para o modelo mais recente✅Gemini Generating Content
gemini-3-flash-previewPrévia oficial✅Gemini Generating Content

Mais modelos