Home/Models/Gemini 3 Pro Preview

Gemini 3 Pro Preview

Google
gemini-3-pro-preview
Entrada:$1.60/M
Saída:$9.60/M
Contexto:200.0k
Saída Máxima:200.0k
O Gemini 3 Pro Preview é um modelo de uso geral da família Gemini, disponível em prévia para avaliação e prototipagem. Ele oferece suporte ao seguimento de instruções, raciocínio em múltiplas etapas e tarefas com código e dados, com saídas estruturadas e invocação de ferramentas/funções para automação de fluxos de trabalho. Os usos típicos incluem assistentes de chat, resumo e reescrita, perguntas e respostas aprimoradas por recuperação, extração de dados e ajuda leve de programação em aplicativos e serviços. Os destaques técnicos incluem implantação baseada em API, respostas em streaming, controles de segurança e prontidão para integração, com recursos multimodais dependendo da configuração da prévia.
Visão Geral
Playground
Recursos
Preços
API
Versões

Gemini 3 Pro (Preview) é o mais novo modelo principal de raciocínio multimodal do Google/DeepMind na família Gemini 3. Ele é posicionado como o “modelo mais inteligente até agora”, projetado para raciocínio profundo, fluxos de trabalho orientados a agentes, programação avançada e compreensão multimodal de contexto longo (texto, imagens, áudio, vídeo, código e integrações de ferramentas).

Principais recursos

  • Modalidades: Texto, imagem, vídeo, áudio, PDFs (e saídas estruturadas de ferramentas).
  • Agentes/ferramentas: Chamadas de função nativas, busca como ferramenta, execução de código, contexto de URL e suporte para orquestrar agentes de múltiplas etapas. O mecanismo de assinatura de pensamento preserva o raciocínio em múltiplas etapas entre chamadas.
  • Programação e “vibe coding”: Otimizado para geração de front-end, geração de UI interativa e programação orientada a agentes (lidera os rankings relevantes reportados pelo Google). É divulgado como o modelo de “vibe coding” mais forte deles até agora.
  • Novos controles para desenvolvedores: thinking_level (low|high) para equilibrar custo/latência versus profundidade de raciocínio, e media_resolution controla a fidelidade multimodal por imagem ou quadro de vídeo. Eles ajudam a equilibrar desempenho, latência e custo.

Desempenho em benchmarks

  • O Gemini3Pro alcançou o primeiro lugar no LMARE com uma pontuação de 1501, superando os 1484 pontos do Grok-4.1-thinking e também ficando à frente de Claude Sonnet 4.5 e Opus 4.1.
  • Também alcançou o primeiro lugar na arena de programação WebDevArena com uma pontuação de 1487.
  • No Humanity’s Last Exam de raciocínio acadêmico, obteve 37.5% (sem ferramentas); no GPQA Diamond de ciências, 91.9%; e na competição de matemática MathArena Apex, 23.4%, estabelecendo um novo recorde.
  • Em capacidades multimodais, o MMMU-Pro alcançou 81%; e em compreensão de vídeo Video-MMMU, 87.6%.

imagem

Detalhes técnicos & arquitetura

  • Parâmetro “Thinking level”: O Gemini 3 expõe um controle thinking_level que permite aos desenvolvedores equilibrar profundidade de raciocínio interno versus latência/custo. O modelo trata thinking_level como uma concessão relativa para raciocínio interno em múltiplas etapas, em vez de uma garantia estrita de tokens. O padrão para o Pro é geralmente high. Este é um novo controle explícito para que os desenvolvedores ajustem o planejamento em múltiplas etapas e a profundidade da cadeia de raciocínio.
  • Saídas estruturadas & ferramentas: O modelo oferece suporte a saídas JSON estruturadas e pode ser combinado com ferramentas integradas (fundamentação via Google Search, contexto de URL, execução de código etc.). Alguns recursos de saídas estruturadas + ferramentas estão disponíveis apenas em prévia para gemini-3-pro-preview.
  • Integrações multimodais e orientadas a agentes: O Gemini 3 Pro foi explicitamente construído para fluxos de trabalho orientados a agentes (ferramentas + múltiplos agentes sobre código/terminais/navegador).

Limitações & ressalvas conhecidas

  1. Factualidade não perfeita — alucinações continuam possíveis. Apesar dos fortes avanços em factualidade alegados pelo Google, verificação fundamentada e revisão humana ainda são necessárias em contextos de alto risco (jurídico, médico, financeiro).
  2. O desempenho em contexto longo varia por tarefa. O suporte a uma janela de entrada de 1M é uma capacidade concreta, mas a eficácia empírica pode cair em alguns benchmarks em comprimentos extremos (quedas pontuais observadas em 1M em alguns testes de contexto longo).
  3. Trade-offs de custo e latência. Contextos grandes e configurações mais altas de thinking_level aumentam computação, latência e custo; faixas de preço se aplicam com base nos volumes de tokens. Use thinking_level e estratégias de divisão em blocos para gerenciar custos.
  4. Segurança & filtros de conteúdo. O Google continua aplicando políticas de segurança e camadas de moderação; determinados conteúdos e ações permanecem restritos ou podem acionar modos de recusa.

Como o Gemini 3 Pro Preview se compara a outros modelos de ponta

Comparação em alto nível (prévia → qualitativa):

Contra o Gemini 2.5 Pro: Melhorias significativas em raciocínio, uso de ferramentas orientadas a agentes e integração multimodal; capacidade muito maior de lidar com contexto e melhor compreensão de textos longos. A DeepMind mostra ganhos consistentes em raciocínio acadêmico, programação e tarefas multimodais.

Contra o GPT-5.1 e o Claude Sonnet 4.5 (conforme reportado): No conjunto de benchmarks do Google/DeepMind, o Gemini 3 Pro é apresentado como líder em várias métricas orientadas a agentes, multimodais e de contexto longo (veja Terminal-Bench, MMMU-Pro, AIME). Os resultados comparativos variam por tarefa.


Casos de uso típicos e de alto valor

  • Sumarização de documentos/livros & Q&A: o suporte a contexto longo o torna atraente para equipes jurídicas, de pesquisa e de compliance.
  • Compreensão & geração de código em escala de repositório: a integração com cadeias de ferramentas de programação e o raciocínio aprimorado ajudam em refatorações de grandes bases de código e fluxos de revisão de código automatizados.
  • Assistentes de produto multimodais: fluxos com imagem + texto + áudio (suporte ao cliente que ingere capturas de tela, trechos de chamadas e documentos).
  • Geração & edição de mídia (foto → vídeo): recursos anteriores da família Gemini agora incluem capacidades de foto→vídeo ao estilo Veo/Flow; a prévia sugere geração multimídia mais profunda para protótipos e fluxos de trabalho de mídia.

Playground para Gemini 3 Pro Preview

Explore o Playground do Gemini 3 Pro Preview — um ambiente interativo para testar modelos e executar consultas em tempo real. Experimente prompts, ajuste parâmetros e itere instantaneamente para acelerar o desenvolvimento e validar casos de uso.

Recursos para Gemini 3 Pro Preview

* **ID do modelo (prévia):** `gemini-3-pro-preview`. * **Tipos de entrada:** Texto, Imagem, Vídeo, Áudio, PDF. Saída: Texto * **Limites de contexto / tokens:** Entrada ≈ **1,048,576 tokens**; Saída ≤ **65,536 tokens**. * **Corte de conhecimento:** **janeiro de 2025** (usa Search Grounding para informações mais recentes). * **Recursos (selecionados):** chamada de funções, execução de código, pesquisa de arquivos, saídas estruturadas, search grounding. Sem suporte para: geração de áudio, geração de imagens, API em tempo real, segmentação de imagens, Google Maps grounding (alguns recursos diferem do Gemini 2.5).
text-to-text
text-to-music
speech-to-text
text-to-speech
text-to-image
image-to-image
image-editing
image-to-text
text-to-video
image-to-video
chat
video-to-text
pdf-to-text

Preços para Gemini 3 Pro Preview

Explore preços competitivos para Gemini 3 Pro Preview, projetado para atender diversos orçamentos e necessidades de uso. Nossos planos flexíveis garantem que você pague apenas pelo que usar, facilitando o dimensionamento conforme suas necessidades crescem. Descubra como Gemini 3 Pro Preview pode aprimorar seus projetos mantendo os custos gerenciáveis.
Preço do Comet (USD / M Tokens)Preço Oficial (USD / M Tokens)
Entrada:$1.60/M
Saída:$9.60/M
Entrada:$2.00/M
Saída:$12.00/M

Código de exemplo e API para Gemini 3 Pro Preview

O Gemini 3 Pro é o mais novo modelo principal de raciocínio multimodal da Google/DeepMind na família Gemini 3. Ele é apresentado como seu “modelo mais inteligente até agora”, projetado para raciocínio profundo, fluxos de trabalho baseados em agentes, programação avançada e compreensão multimodal de longo contexto (texto, imagens, áudio, vídeo, código e integrações de ferramentas).
Python
JavaScript
Curl
from google import genai
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": BASE_URL},
    api_key=COMETAPI_KEY,
)

response = client.models.generate_content(
    model="gemini-3-pro-preview",
    contents="Explain how AI works in a few words",
)

print(response.text)

Versões do Gemini 3 Pro Preview

O motivo pelo qual Gemini 3 Pro Preview possui múltiplas versões instantâneas pode incluir fatores como variações na saída após atualizações que exigem versões antigas para consistência, fornecendo aos desenvolvedores um período de transição para adaptação e migração, e diferentes versões correspondentes a endpoints globais ou regionais para otimizar a experiência do usuário. Para diferenças detalhadas entre versões, consulte a documentação oficial.