Como usar a API GPT-5.4: guia de parâmetros e uso de ferramentas

CometAPI
AnnaMar 7, 2026
Como usar a API GPT-5.4: guia de parâmetros e uso de ferramentas

De 5 a 7 de março de 2026, a OpenAI lançou publicamente o GPT-5.4, um modelo de ponta explicitamente ajustado para fluxos de trabalho profissionais, intensivos em documentos e agênticos. O lançamento destaca três avanços convergentes: (1) janelas de contexto substancialmente maiores (≈1,050,000 tokens), (2) uma nova capacidade de “raciocínio” que permite aos desenvolvedores controlar o esforço de raciocínio interno e (3) uso de computador/orquestração de ferramentas de primeira classe e compreensão multimodal aprimorada (texto + imagens + capturas de tela). Esses recursos tornam o GPT-5.4 especialmente adequado para tarefas como modelagem em planilhas, revisão de contratos, geração de slides, fluxos de trabalho agênticos de múltiplas etapas e escrita de código que opera sistemas em produção.

Você pode experimentar o GPT-5.4 no CometAPI. Uma variante com mais computação — GPT-5.4 Pro — está disponível para as cargas de trabalho mais difíceis de raciocínio e multi-turn.

O que é o GPT-5.4 (incluindo as variantes Thinking e Pro)

A família de modelos, em resumo

O GPT-5.4 é posicionado como o modelo GPT-5 “de ponta” para trabalho profissional complexo: documentos longos, código, raciocínio em múltiplas etapas e fluxos de trabalho agênticos. O lançamento reúne capacidades anteriormente divididas entre o Codex (codificação) e a linha GPT — assim, você obtém um único modelo que consegue programar, raciocinar, usar ferramentas e gerenciar contextos longos. O guia oficial do modelo lista gpt-5.4 como o padrão para a maioria dos trabalhos e gpt-5.4-pro para os problemas mais difíceis.

Especificações principais (oficiais):

  • Janela de contexto: ~1,050,000 tokens (≈ 700–800 mil palavras em inglês), possibilitando entradas muito grandes como rascunhos de livros inteiros, bases de código com múltiplos arquivos ou longos documentos jurídicos.
  • Máximo de tokens de saída: relatos indicam suporte a saídas muito grandes (por exemplo, até 128,000 tokens em algumas configurações Pro).
  • Variantes: gpt-5.4 (padrão), gpt-5.4-pro (mais computação, raciocínio mais longo) e modelos mais leves/mini para uso com foco em custo.

“Thinking” e “Pro” explicados

  • GPT-5.4 Thinking: um modo ajustado para raciocínio interativo. Ele enfatiza fluxos de trabalho com planejamento antecipado — o modelo pode apresentar um plano antecipado (um “upfront plan”) antes de gerar os resultados completos, permitindo direcionamento durante a geração e reduzindo o gasto de tokens em direções erradas. Esse modo melhora a visibilidade sobre as etapas pretendidas pelo modelo e torna tarefas longas mais seguras e controláveis.
  • GPT-5.4 Pro: o “irmão” de alta computação para os problemas mais difíceis — cadeia de raciocínio mais profunda, orçamentos internos de computação maiores e resultados mais determinísticos/estáveis em benchmarks difíceis. É exposto na Responses API e é destinado a tarefas de raciocínio pesado e multi-turn (espere maior latência e custo).

Principais melhorias e novos recursos do GPT-5.4

Janelas de contexto massivas (≈1,050,000 tokens)

Este é um dos destaques: um modelo que consegue consumir e raciocinar sobre livros inteiros, bases de código com múltiplos arquivos ou conjuntos de documentos corporativos sem transmiti-los em partes. Na prática, isso simplifica tarefas como revisão de contratos de ponta a ponta, sumarização de documentos completos e perguntas e respostas entre documentos. Casos de uso: diligência jurídica, auditorias técnicas e logs de agentes.

Observação prática: a janela de contexto maior muda o design do sistema — em vez de fragmentar agressivamente, agora você pode manter mais estado “global” no contexto, mas ainda deve usar compactação (ver Controle de Parâmetros) para manter os custos razoáveis.

Uso nativo de computador e integrações de ferramentas

O GPT-5.4 é o primeiro modelo de uso geral com capacidades nativas de uso de computador: gerar sequências de ações de navegador ou SO (scripts Playwright, eventos de teclado/mouse), ler capturas de tela, interagir com interfaces web e orquestrar fluxos de trabalho com múltiplas ferramentas. Isso é um grande passo rumo à construção de agentes autônomos que executam tarefas reais de ponta a ponta.

O GPT-5.4 inclui uso de computador integrado: o modelo pode interagir com agentes de software locais/remotos, chamar conectores, manipular planilhas, tirar capturas de tela e automatizar fluxos de trabalho de múltiplas etapas quando permitido. Isso reduz o “glue code”: em vez de construir invólucros de instrução frágeis, o modelo pode operar em um ciclo construir-executar-verificar-corrigir (comportamento agêntico) usando APIs de ferramentas documentadas. É um grande passo em direção a agentes autônomos seguros e práticos.

Modos de raciocínio e reasoning.effort

Um parâmetro ajustável reasoning.effort permite controlar quanto de computação interna o modelo investe em cadeia de raciocínio e busca de solução (opções: none, low, medium, high, xhigh). Esforço maior produz melhores respostas para problemas complexos, mas custa mais e aumenta a latência — ideal para gpt-5.4-pro.

Planejamento antecipado / planos interativos

“Planos antecipados” permitem que o modelo produza um plano curto antes de executar uma geração longa. Esse plano pode ser inspecionado e modificado pelo desenvolvedor ou usuário, minimizando saídas desperdiçadas e permitindo correções de rota no meio da tarefa (ótimo para criação de documentos longos ou análises em múltiplas etapas).

Habilidades multimodais/de documentos melhores

Benchmarks e avaliações internas lançados com o modelo mostram grandes ganhos em tarefas de planilhas (exemplo de avaliação interna de planilhas: média do GPT-5.4 de 87,3% vs 68,4% do GPT-5.2) e preferência humana por saídas de apresentações (apresentações do GPT-5.4 preferidas em 68% vs GPT-5.2 em testes com humanos). A empresa também relata reduções em erros factuais (taxa de falsidade por afirmação reduzida em ~33%, taxa de erro da resposta completa reduzida em ~18% em comparação com o GPT-5.2).

Como usar a API do GPT-5.4 (Responses API / Chat API )

GPT-5.4 pro oferece apenas acesso por responses. GPT-5.4 (thinking) oferece chat e responses. O CometAPI (uma plataforma de agregação tudo-em-um para APIs de modelos grandes com descontos) oferece a Série GPT-5.4, dois métodos de acesso e playgrounds compatíveis e úteis.

Observação: a Responses API é a integração recomendada para modelos GPT-5.x porque dá suporte direto a parâmetros de raciocínio, registro de ferramentas e tamanhos de contexto maiores.

Python — Responses API (ilustrativo)

# pip install openai (or use the official package named in docs)
from openai import OpenAI
import os

api_key = os.environ.get("OPENAI_API_KEY")  # or set env var
client = OpenAI(api_key=api_key)

resp = client.responses.create(
     model="gpt-5.4-pro-2026-03-05",
    input="How much gold would it take to coat the Statue of Liberty in a 1mm layer?",
    reasoning={"effort": "high"},          # hidden internal reasoning tokens used
    max_output_tokens=4096,               # keep below max output limit for your use case
    temperature=0.0,                      # deterministic for legal/technical tasks
    tools=[                                # optionally register tools the model can call
        {
            "name": "file_search",
            "type": "file_search",
            "config": {"root": "/mnt/data/contracts"}
        }
    ],
    response_format={"type":"json", "json_schema":{
        "name":"redlines",
        "schema":{"type":"object","properties":{"summary":{"type":"string"},"redlines":{"type":"array","items":{"type":"object"}}}}
    }}
)

print(resp.output_text)  # final model answer

Notas: reasoning é um objeto que controla o esforço interno; tools registra as interfaces de ferramentas disponíveis para o modelo chamar; response_format impõe saída estruturada. Os valores de rótulo disponíveis para reasoning.effort variam de none (mais rápido) até xhigh (maior esforço interno), dependendo do suporte do SDK e do provedor. Use esforço baixo para resumos simples; aumente-o para tarefas complexas e de múltiplas etapas.

Curl — API de chat (ilustrativo)

curl --location --request POST 'https://api.cometapi.com/v1/chat/completions' \
--header 'Authorization: Bearer ' \
--header 'Content-Type: application/json' \
--data-raw '{
  "model": "gpt-5.2\4",
  "messages": [
    {
      "role": "system",
      "content": "You are a helpful assistant."
    },
    {
      "role": "user",
      "content": "Hello!"
    }
  ]
}'

Usando ferramentas com o GPT-5.4 (Uso de Computador, conectores e agentes)

O salto mais prático do GPT-5.4 é seu comportamento agêntico e ciente de ferramentas: ele pode descobrir e chamar a ferramenta certa, operar em planilhas e UIs quando autorizado, e raciocinar sobre as ações que tomará.

O GPT-5.4 foi projetado para trabalhar com ferramentas. Há três grandes classes de ferramentas a considerar:

  1. Ferramentas hospedadas (por exemplo, web_search, file_search) — o modelo pode chamá-las como parte do loop de resposta. Ótimas para recuperar informações atualizadas ou consultas a bancos vetoriais.
  2. Ferramentas personalizadas/chamadas de função — seus próprios endpoints de servidor ou esquemas de função. Declare funções (esquemas) para que o modelo retorne saídas estruturadas que seu código executa.
  3. Uso de computador — o modelo emite ações de GUI e espera um harness para executá-las (cliques, digitação, capturas de tela). Isso é poderoso, mas de alto risco.

Quando você tiver dezenas/centenas de ferramentas, passe tool_search e deixe o modelo descobrir esquemas de ferramentas relevantes em tempo de execução. Isso reduz o uso de tokens e melhora o desempenho de cache em implantações.

Como funciona a integração de ferramentas (conceitual)

  1. Descoberta de ferramentas: o modelo encontra conectores disponíveis (por exemplo, Google Sheets, Salesforce, banco de dados interno) com base em um catálogo.
  2. Plano e permissão: o modelo produz um plano antecipado descrevendo quais ferramentas chamará e por quê; isso é revisado e aprovado.
  3. Chamar e verificar: o modelo chama as ferramentas (via conectores ou APIs de ação), lê os resultados e executa verificações de validação (ou pede confirmação humana).
  4. Ciclo de correção: em falhas, o modelo tenta reparos ou pede orientações.

Esse padrão reduz a orquestração personalizada frágil e centraliza a lógica no modelo, mas exige controles de acesso rigorosos e logs de auditoria.

Chamando com tools (web_search / file_search / uso de computador)

A Responses API dá suporte à passagem de um array tools. O modelo pode escolher ferramentas (ferramentas hospedadas como web_search, file_search), ou você pode pré-declarar e restringir ferramentas. Exemplo: pedir ao modelo para usar busca na web.

response = client.responses.create(    model="gpt-5.4",    input="What are the three most-cited 2025 papers on federated learning?",    tools=[{"type": "web_search", "name": "web_search"}],    tool_search={"enabled": True})

Se você passar muitas definições de ferramenta, tool_search permite ao GPT-5.4 adiar o carregamento da maioria das ferramentas e carregar apenas as relevantes — crucial para grandes ecossistemas de ferramentas.

Guia de Compatibilidade e Controle de Parâmetros do GPT-5.4

Parâmetros tradicionais de LLM ainda existem, mas são restritos dependendo do modo de raciocínio.

Parâmetros principais da API do GPT-5.4

reasoning.effort: Os seguintes parâmetros são totalmente compatíveis e recomendados ao chamar o GPT-5.4. Controla quanto raciocínio interno o modelo realiza antes de gerar a saída final.

Valores compatíveis:

nonelowmediumhighxhigh

Exemplo:

response = client.responses.create(    model="gpt-5.4",    reasoning={"effort": "high"},    input="Explain the Nash equilibrium in game theory.")

Efeitos:

ValorComportamento
noneResposta mais rápida
lowRaciocínio leve
mediumEquilíbrio padrão
highRaciocínio forte
xhighProfundidade máxima

Esforço de raciocínio maior geralmente aumenta:

  • a precisão da resposta
  • tokens de raciocínio
  • latência
  • custo

O nível padrão é geralmente medium.

Tools

Define as ferramentas que o modelo pode chamar. tools + tool_search

  • tool_search adia o carregamento de definições de ferramentas para eficiência; ative-o para conjuntos grandes de ferramentas.
  • tools declara definições de ferramentas (web_search, file_search, RPCs personalizados).

Ferramentas integradas compatíveis incluem:

  • pesquisa na web
  • pesquisa de arquivos
  • interpretador de código
  • geração de imagens

Exemplo:

tools=[{
   "name":"get_weather",
   "description":"Get current weather",
   "parameters":{
      "type":"object",
      "properties":{
         "city":{"type":"string"}
      }
   }
}

Parâmetros de amostragem (controle de aleatoriedade)

Regra importante de compatibilidade: Quando reasoning.effort ≠ none, alguns parâmetros de amostragem podem não ser compatíveis. Se reasoning.effort for high, a solicitação pode falhar ou ignorar temperature.

Modelos GPT-5.4 desativam parâmetros como:

  • temperature
  • top_p
  • logprobs

porque os modelos com raciocínio controlam a amostragem internamente.

  1. temperature Controla a aleatoriedade na amostragem de tokens.
ValorEfeito
0.0determinístico
0.2–0.4estável
0.7equilibrado
1.0altamente criativo

Exemplo:

{ "model": "gpt-5.4", "temperature": 0.2, "reasoning": { "effort": "none" }}

Se reasoning.effort for high, a solicitação pode falhar ou ignorar temperature.

  1. top_p: Parâmetro de amostragem por núcleo (nucleus sampling).
ValorSignificado
0.9considera os tokens do top 90%
0.5geração conservadora
1.0distribuição completa
  1. stop: Interrompe a geração ao encontrar tokens específicos.

Útil para:

  • geração de código
  • pipelines de ferramentas
  • delimitadores de chat

Verbosity: controla o comprimento da resposta.

Vários parâmetros novos apareceram a partir dos modelos GPT-5, incluindo o GPT-5.4.

Valores:

lowmediumhigh

Exemplo:

verbosity="high"

Casos de uso:

ValorComportamento
lowrespostas concisas
mediumequilibrado
highexplicações longas

Esse parâmetro ajuda a controlar o comprimento da saída sem manipular limites de tokens.

Diferenças de parâmetros do GPT-5.4

Abaixo está uma tabela simplificada de compatibilidade.

Parâmetroreasoning:nonereasoning:low+
temperature✗ / ignorado
top_p
logprobs
max_output_tokens
tools
tool_choice
verbosity
reasoning.effort

Comparação de parâmetros e capacidades entre GPT-5.4 e GPT-5.4-Pro

RecursoGPT-5.4GPT-5.4-Pro
Flexibilidade de raciocínioFaixa completa de none → xhighApenas medium → xhigh
LatênciaMenorMaior (tarefas complexas podem levar minutos)
CustoMenorMaior devido à computação adicional
Execução em backgroundOpcionalRecomendada para tarefas longas
Níveis de raciocínio suportadosnone, low, medium, high, xhighmedium, high, xhigh

Boas práticas para adoção do GPT-5.4 em produção

1) Comece pequeno e aumente o raciocínio

  • Comece com reasoning.effort=none/low + text.verbosity=low para endpoints sensíveis à latência.
  • Para fluxos complexos, avance para medium e depois high apenas após testes A/B de custo vs. acurácia.

2) Prefira saídas estruturadas para tarefas programáticas

Use esquemas de função ou esquemas Pydantic/JSON para que o modelo retorne saídas legíveis por máquina; reduz erros de parsing a jusante.

3) Mantenha humanos no circuito para decisões de alto impacto

Qualquer fluxo de trabalho que envolva dinheiro, resultados jurídicos ou dados pessoais deve exigir aprovação humana antes de efeitos externos.

4) Limite capacidades expostas

Use listas allowed_tools (negação por padrão) e permissões granulares de ferramentas. Para uso de computador, imponha uma lista branca estrita de ações.

5) Orçamento de custos e tokens

Use max_output_tokens e text.verbosity para custos previsíveis. Para contextos muito grandes, pagine ou compacte conteúdo quando apropriado — mesmo com 1M de tokens, estratégias de compactação/seleção ajudam a reduzir custos.

Notas finais — migração e próximos passos

O GPT-5.4 representa um avanço significativo na construção de sistemas de IA que conseguem raciocinar mais, trabalhar entre softwares e lidar com contextos muito grandes. Para a maioria das equipes, o caminho de migração recomendado é:

  1. Prototipar com um subconjunto pequeno de fluxos de trabalho (por exemplo, revisão de contratos, geração de slides) usando o alias gpt-5.4 em um sandbox.
  2. Medir acurácia da tarefa, uso de tokens, latência e custo em comparação com modelos anteriores.
  3. Endurecer adicionando saídas estruturadas, proteções de ferramentas e aprovações humanas para fluxos arriscados.
  4. Os descontos de API do CometAPI podem resolver caso requisitos de custo ou latência levem a essa escolha.

Desenvolvedores podem acessar GPT-5.4, GPT-5.4-pro, via API no CometAPI agora. Para começar, explore as capacidades do modelo no Playground e consulte o guia da API para instruções detalhadas. Antes de acessar, verifique se você fez login no CometAPI e obteve a chave de API. O CometAPI oferece um preço muito inferior ao oficial para ajudar na integração.

Pronto para começar? → Inscreva-se no GPT-5.4 hoje !

Se você quer saber mais dicas, guias e novidades sobre IA, siga-nos no VK, X e Discord!

Acesse Modelos de Ponta com Baixo Custo

Leia Mais