Como usar a API do Gemini 3.5 Flash

CometAPI
AnnaMay 20, 2026
Como usar a API do Gemini 3.5 Flash

O Google apresentou o Gemini 3.5 Flash no Google I/O 2026 como o mais recente da sua série Flash, oferecendo inteligência de nível de fronteira com velocidade e custo de nível Flash. Lançado em ou por volta de 19 de maio de 2026, ele combina raciocínio avançado, fortes capacidades agênticas e compreensão multimodal mantendo baixa latência.

Este modelo se destaca para desenvolvedores, empresas e construtores de IA que precisam de alto desempenho sem a sobrecarga dos modelos "Pro" maiores. Ele rivaliza ou supera modelos Pro anteriores em benchmarks-chave de tarefas agênticas e de programação, ao mesmo tempo em que oferece velocidade e eficiência superiores.

Destaques principais (estrutura de snippet em destaque):

  • Desempenho: Supera o Gemini 3.1 Pro no Terminal-Bench 2.1 (76.2% vs. 70.3%), MCP Atlas (83.6%) e outros.
  • Velocidade: Latência de nível Flash para casos de uso em tempo real e de alto volume.
  • Contexto: Até 1M de tokens de entrada, 64k de tokens de saída.
  • Multimodal: Lida nativamente com texto, imagens, vídeo, áudio, PDF.
  • Preço: Aproximadamente US$ 1,50 / 1M tokens de entrada e US$ 9 / 1M tokens de saída (varia por provedor/plataforma).

Para integração sem atritos, a CometAPI fornece um proxy unificado e confiável para modelos Gemini (e muitos outros) com limites de taxa aprimorados, faturamento simplificado, roteamento de fallback e análises de uso — ideal para apps de produção que escalam com o Gemini 3.5 Flash.

O que é o Gemini 3.5 Flash?

O Gemini 3.5 Flash é o modelo de nível Flash mais inteligente do Google, projetado para desempenho de fronteira sustentado em tarefas agênticas e de programação em escala. Ele se baseia na série Gemini 3, combinando raciocínio semelhante ao Pro com eficiência de nível Flash.

Diferente das variantes "Lite" mais leves, focadas puramente em custo, ou dos modelos Pro mais pesados, que priorizam inteligência máxima, o 3.5 Flash se destaca em cenários do mundo real e de múltiplas etapas: implantação de subagentes, iterações rápidas de código ("vibe coding"), uso paralelo de ferramentas e fluxos de trabalho de longo horizonte que exigem manutenção de contexto por muitas interações.

Capacidades centrais:

  • Entradas multimodais: Texto, imagens, vídeo, áudio, PDFs.
  • Ferramentas e recursos agênticos: Chamadas de função, execução de código, grounding de busca, pesquisa de arquivos, contexto de URL. (Computer Use ainda não suportado.)
  • Modos de raciocínio: Níveis de esforço configuráveis para equilibrar profundidade vs. velocidade.
  • Pronto para produção: Status de disponibilidade geral (GA) com versionamento estável (gemini-3.5-flash).

Ele suporta contexto de 1M de tokens, possibilitando o processamento de documentos, bases de código ou históricos de conversa massivos — fundamental para agentes complexos.

O que há de novo no Gemini 3.5 Flash

Em comparação com o Gemini 3 Flash e o 3.1 Pro, o 3.5 Flash traz melhorias significativas:

  • Desempenho agêntico aprimorado: 42% melhor em benchmarks cibernéticos multietapa de longo alcance, com redução de 72% de tokens em alguns casos.
  • Melhor programação: Lidera no Terminal-Bench e em variantes do SWE-Bench para fluxos de trabalho reais de desenvolvedores.
  • Raciocínio multimodal aprimorado: Pontuações de topo no CharXiv (84.2%) e MMMU-Pro.
  • Coordenação paralela de subagentes: Suporte nativo para orquestração complexa e multiagente (demonstrado em exemplos do Antigravity como migração de base de código e desenvolvimento de jogos).
  • Ganhos de eficiência: Mantém ou melhora a velocidade enquanto aumenta a inteligência, tornando-o adequado para produção em alto volume.

Tabela de comparação de benchmarks:

BenchmarkGemini 3.5 FlashGemini 3 FlashGemini 3.1 ProObservações
Terminal-Bench 2.1 (Agente)76.2%58.0%70.3%Forte liderança em programação
MCP Atlas (Multietapas)83.6%62.0%78.2%Fluxos agênticos
CharXiv (Multimodal)84.2%80.3%83.3%Raciocínio com gráficos
GDPval-AA (Elo)165612041314Trabalho do conhecimento
MMMU-Pro83.6%81.2%80.5%Multimodal

Usuários do mundo real (por exemplo, Shopify, Macquarie Bank, Salesforce) relatam ganhos em previsão, processamento de documentos e automação corporativa.

Ajustes de comportamento e mudanças-chave

O Google introduziu atualizações importantes de comportamento para melhor eficiência e consistência.

Novo nível de esforço padrão: Médio

O thinking\_level padrão mudou de alto (em prévias anteriores) para médio. Isso entrega excelentes resultados para a maioria das tarefas, reduzindo latência e custo. Use alto para o raciocínio mais complexo.

Tabela de comparação de nível de esforço:

Nível de esforçoMelhor paraImpacto em latência/custoCasos de uso recomendados
minimalRespostas rápidasO mais baixoChat, fatos simples, roteamento básico
lowAgente/código com menos passosBaixoAnálise, escrita, ferramentas rápidas
medium (padrão)A maioria das tarefasEquilibradoCódigo complexo, agentes padrão
highRaciocínio profundoMais altoMatemática difícil, tarefas agênticas mais desafiadoras

Exemplo de código (Python - definindo o nível de raciocínio):

Python

from google import genai
from google.genai import types

client = genai.Client()  # Assumes API key configured via env or auth

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents="Prove that the square root of 2 is irrational.",
    config=types.GenerateContentConfig(
        thinking_config=types.ThinkingConfig(thinking_level="high")
    ),
)
print(response.text)

Padrões semelhantes se aplicam em JavaScript, REST etc.

Preservação do pensamento

O modelo agora mantém automaticamente o raciocínio intermediário em conversas de múltiplas interações quando o histórico completo (incluindo assinaturas de pensamento) é fornecido. Isso aumenta o desempenho em depuração iterativa, refatoração e sessões longas de agentes — sem mudanças extras de API necessárias para a Interactions API; GenerateContent se beneficia do envio do histórico completo.

Atualizações de parâmetros (boas práticas do Gemini 3.x)

  • Evite definir manualmente temperature, top_p, top_k — os padrões são otimizados.
  • Use thinking\_level em vez de thinking\_budget numérico.
  • Correspondência estrita de respostas de funções (id, name, count) é crítica para evitar respostas vazias.

Como acessar e usar a API do Gemini 3.5 Flash

1. Opções de acesso:

  1. Google AI Studio (o mais fácil para testes) — Camada gratuita disponível.
  2. Gemini API (direto com chave de API).
  3. Vertex AI / Gemini Enterprise Agent Platform (recursos corporativos, limites mais altos).
  4. Terceiros como CometAPI (recomendado para acesso simplificado a múltiplos provedores, análises e confiabilidade).

Primeiros passos com a CometAPI: a CometAPI agrega acesso a modelos Gemini com um endpoint único, melhor tratamento de erros, painéis de uso e alertas de custo. Cadastre-se em Cometapi.com, obtenha sua chave e direcione requisições para gemini-3.5-flash (ou ID de modelo equivalente) com mudanças mínimas de código. Perfeito para escalar sem gerenciar várias chaves de API ou lidar diretamente com limites de taxa.

2. Configuração básica e Olá, Mundo

Início rápido em Python:

import osfrom google import genaifrom google.genai import types​# Configure client (API key from env or Google auth)genai.configure(api_key=os.environ["GEMINI_API_KEY"])  # Or use Client() with defaults​client = genai.Client()​response = client.models.generate_content(    model="gemini-3.5-flash",    contents="Explain parallel agentic execution in three sentences.",)print(response.text)

Exemplo em JavaScript:

import { GoogleGenAI } from "@google/genai";​const ai = new GoogleGenAI({});​async function main() {  const response = await ai.models.generateContent({    model: "gemini-3.5-flash",    contents: "Explain parallel agentic execution in three sentences.",  });  console.log(response.text);}​main();

REST API Curl:

curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent" \  -H "x-goog-api-key: $GEMINI_API_KEY" \  -H 'Content-Type: application/json' \  -X POST \  -d '{    "contents": [{      "parts": [{"text": "Hello, Gemini 3.5 Flash!"}]    }]  }'```<grok-card data-id="a39ea3" data-type="citation_card" data-plain-type="render_inline_citation" ></grok-card>​​

3. Uso avançado: multimodal, chamadas de função e agentes

Exemplo multimodal (imagem + texto):

# Assuming you have an image file or bytesimage_part = types.Part.from_bytes(data=image_bytes, mime_type="image/jpeg")​response = client.models.generate_content(    model="gemini-3.5-flash",    contents=[image_part, "Describe this image in detail and suggest improvements."],)

Chamadas de função para fluxos de trabalho agênticos:

Defina ferramentas, deixe o modelo chamá-las e depois forneça as respostas (correspondendo id/name estritamente).

Saídas estruturadas:

Use esquemas de resposta para análise JSON confiável — perfeito para pipelines de extração de dados.

Ferramenta de execução de código:

Ative para o modelo executar código Python em um sandbox para matemática, análise de dados etc.

Para configurações agênticas completas, considere os Managed Agents do Google (prévia) ou construa o seu com Cometapi.com para orquestração, logging e controle de custos.

Recomendações para a API do Gemini 3.5 Flash

  1. Aproveite o nível de esforço padrão médio — só substitua quando necessário.
  2. Envie o histórico completo para preservação do raciocínio em chats/agentes.
  3. Use cache de contexto para prompts grandes repetidos (economias significativas).
  4. Tratamento estrito de respostas de ferramentas para evitar falhas.
  5. Monitore tokens — 1M de contexto é poderoso, mas caro se mal utilizado.
  6. Combine com Cometapi.com — implemente roteamento inteligente (por exemplo, fallback para Flash-Lite em consultas simples), camadas de cache, painéis de uso e tratamento de erros unificado. Isso otimiza gastos e confiabilidade para apps de alto volume ou críticos.

Melhores práticas para usar a API do Gemini 3.5 Flash

Engenharia de prompts:

  • Use prompts claros e estruturados com papéis (System + User).
  • Especifique o formato de saída (JSON, tabelas Markdown).
  • Cadeia de raciocínio: "Pense passo a passo..."

Otimização de custos:

  • Aproveite o "medium" como padrão.
  • Use caching (quando suportado).
  • Monitore o uso de tokens via painéis da CometAPI.
  • Agrupe tarefas não urgentes.

Tratamento de erros e confiabilidade:

  • Implemente novas tentativas com backoff exponencial.
  • Use a CometAPI para fallbacks automáticos para outros modelos.

Design agêntico:

  • Divida tarefas complexas em subagentes.
  • Mantenha estado com sessões de chat ou memória externa.
  • Combine com Antigravity ou orquestração personalizada.

Aplicações do mundo real e estudos de caso

  • Agentes de programação: Desenvolvimento iterativo com ciclos rápidos de feedback.
  • Automação corporativa: Processamento de documentos, extração de dados (por exemplo, ganhos na Box Life Sciences).
  • Análise multimodal: Vídeo/áudio + texto para insights ricos.
  • Agentes de suporte ao cliente: Manipulação de conversas com longo contexto.

Integrar via Cometapi.com permite que equipes façam testes A/B de prompts/modelos, acompanhem ROI por fluxo de trabalho e escalem sem dores de infraestrutura.

Comparação: Gemini 3.5 Flash vs. concorrentes e modelos anteriores

O Gemini 3.5 Flash oferece excelente relação preço-desempenho para casos de uso agênticos/de programação. Muitas vezes é mais rápido e mais econômico que modelos Pro completos para muitas tarefas, reduzindo a diferença em inteligência bruta.

Quando escolher:

  • Apps de alta taxa de transferência (chatbots, assistentes de programação).
  • Automação agêntica.
  • Análise multimodal com requisitos de velocidade.
  • Produção com orçamento controlado.

Limitações: Ainda nuances de prévia/estabilidade; preços mais altos que níveis Flash antigos para algumas saídas. Teste exaustivamente.

Tabela de comparação de desempenho (aproximada, com base em relatos públicos):

ModeloForça agênticaVelocidadeCusto (entrada/saída)Melhor para
Gemini 3.5 FlashAlta (fronteira)Muito alta$1.50 / $9Agentes, Programação, Escala
Gemini 3 FlashMédia-altaAltaInferiorTarefas rápidas gerais
Gemini 3.1 ProMuito altaMédiaSuperiorInteligência máxima
Variantes LiteMédiaA mais altaA mais baixaSimples em alto volume

Armadilhas comuns e solução de problemas

  • Respostas de função sem correspondência → saídas vazias.
  • Uso excessivo de high → custos/latência mais altos.
  • Não usar cache para contextos repetitivos.
  • Surpresas com limite de tokens em sessões longas.

Conclusão: comece a construir com o Gemini 3.5 Flash hoje

O Gemini 3.5 Flash democratiza capacidades de IA de fronteira para aplicações sensíveis a velocidade e custo. Seu lançamento em GA, combinado com atualizações de comportamento cuidadosas como esforço padrão médio e preservação de raciocínio, faz dele uma potência para produção.

Passos de ação:

  1. Obtenha sua chave de API e teste .
  2. Implemente via SDKs com os exemplos de código acima.
  3. Escale de forma inteligente com a Cometapi.com para proxy, otimização, monitoramento e suporte multi-LLM.
  4. Experimente padrões agênticos e compartilhe resultados.

Seguindo este guia, você aproveitará o Gemini 3.5 Flash de forma eficaz enquanto minimiza riscos e custos. Para gestão de API sem atritos, adaptada a fluxos de trabalho modernos de IA, visite a CometAPI e integre hoje mesmo.

Pronto para reduzir os custos de desenvolvimento de IA em 20%?

Comece gratuitamente em minutos. Créditos de avaliação gratuita incluídos. Não é necessário cartão de crédito.

Leia Mais