OpenAI lança a série GPT-5.4: o que o GPT-5.4 muda

O mais recente lançamento da OpenAI, GPT-5.4, chega como uma família de modelos voltada para “trabalho profissional”, com duas variantes principais — GPT-5.4 Thinking e GPT-5.4 Pro — e forte ênfase em trabalho com documentos de longo contexto, capacidades nativas de uso do computador (agente) e melhoria de factualidade e desempenho de tarefas em fluxos de trabalho de escritório, jurídico e financeiro. O lançamento segue atualizações anteriores na linha GPT-5 (notadamente GPT-5.3 Instant e GPT-5.3-Codex) e traz melhorias mensuráveis em benchmarks internos e públicos, integração mais profunda de ferramentas (incluindo um plug-in do ChatGPT para Excel) e um contexto suportado maior (cita até 1 milhão de tokens).

Agora a CometAPI oferece suporte a GPT-5.4 e GPT-5.4 Pro, e os disponibiliza com descontos.

O que é o GPT-5.4?

Posicionamento e variantes

O GPT-5.4 é apresentado pela OpenAI como o modelo mais capaz da série GPT-5, ajustado para fluxos de trabalho profissionais, intensivos em documentos e orientados a agentes. Ele é oferecido em pelo menos duas variantes publicadas:

GPT-5.4 Thinking — uma variante focada em raciocínio que expõe mais do processo de pensamento do modelo e é otimizada para raciocínio em múltiplas etapas e tarefas de agente (disponível no ChatGPT como o modo “Thinking”).
GPT-5.4 Pro — um nível de inferência com maior computação/prioridade para cargas corporativas de alta vazão ou sensíveis à latência, com preços de API mais altos (refletindo o custo computacional extra).

A OpenAI destaca as capacidades nativas de uso do computador do GPT-5.4 — permitindo que modelos operem software por meio de ações programáticas de mouse/teclado e orquestrem sequências de múltiplas ferramentas — posicionadas como um salto para a construção de agentes que concluem tarefas de fato.

Capacidades novas e enfatizadas

Suporte a contexto longo: relata-se que o GPT-5.4 suporta contextos muito grandes (suporta até 1,000,000 tokens em contextos do ChatGPT e Codex), permitindo ao modelo manter projetos enormes, livros, bases de código ou conjuntos de dados “na memória” durante uma sessão. Isso é transformador para revisão de documentos, contratos jurídicos e projetos de engenharia com múltiplos arquivos.
Uso nativo do computador / atuação como agente: o GPT-5.4 é o primeiro modelo de uso geral da OpenAI com capacidades nativas de uso do computador — ele pode gerar sequências de ações de UI e código para operar software (por exemplo, via Playwright ou emitindo comandos de mouse/teclado com base em capturas de tela). Essa capacidade foi projetada para permitir que desenvolvedores construam agentes que concluem tarefas em apps web e desktop.
Melhorias em ferramentas de escritório: grande ênfase em planilhas, apresentações e documentos — com benchmarks internos mostrando ganhos significativos em modelagem de planilhas, estética de apresentações e qualidade de redação de documentos.
Factualidade e redução de alucinações: a OpenAI relata reduções em erros factuais em relação a modelos anteriores em conjuntos de avaliação curados internamente (ver benchmarks abaixo).

Em comparação com modelos anteriores como GPT-5.2 Thinking e GPT-5.3 Codex, o GPT-5.4 reúne essas capacidades em um único modelo projetado para lidar com tarefas de longa duração e fluxos de trabalho complexos com intervenção mínima do usuário.

Principais recursos e destaques técnicos do GPT-5.4

1) Janelas de contexto massivas (até 1,000,000 tokens)

A capacidade mais visível de imediato é o suporte a janelas de contexto de até 1,000,000 tokens via API. Isso amplia o que uma única sessão do modelo pode conter: livros inteiros, bases de código longas ou dossiês multidocumento completos sem fragmentação em várias chamadas. Para fluxos de trabalho empresariais intensivos em conhecimento (descoberta jurídica, síntese de pesquisa, análise de código em larga escala), a capacidade de manter um contexto de um milhão de tokens reduz a “cola” de engenharia e melhora a coerência.

Implicação: fluxos de trabalho que antes exigiam orquestração (recuperação, fragmentação, memória externa) agora podem manter mais do contexto bruto na memória de trabalho do modelo — simplificando pipelines e reduzindo os trade-offs de latência/consistência.

2. Uso nativo do computador e de ferramentas

A OpenAI destaca uma capacidade mais robusta de operar ferramentas e conectores de software (por exemplo, planilhas, editores de documentos, ambientes de execução de código) do que modelos anteriores. O GPT-5.4 estende o trabalho prévio de “uso de ferramentas” com:

Melhor seleção de ferramentas e parametrização.
Planejamento de sequência mais confiável ao chamar APIs externas ou percorrer ações do tipo UI.
Redução de overhead de tokens para fluxos de trabalho de agentes por meio de uma arquitetura de chamadas de ferramentas mais inteligente.

Capacidades para agentes e desenvolvedores:

Automação de desktop e web: com suporte explícito à emissão de ações de mouse e teclado com base em capturas de tela, o GPT-5.4 pode ser incorporado em agentes que operam fluxos de trabalho reais de software (por exemplo, preenchendo formulários, navegando em dashboards ou executando procedimentos de múltiplas etapas). A OpenAI relata resultados de estado da arte em benchmarks de estilo SO.
Interface de ferramentas e capacidade de direcionamento: o GPT-5.4 é mais direcionável via mensagens de desenvolvedor e decide melhor quando e como chamar ferramentas externas, conectores e APIs — uma capacidade crucial para construir agentes multi-ferramenta confiáveis que minimizam ações desnecessárias ou arriscadas.

Impacto prático: tarefas de automação (por exemplo, “abra esta planilha, calcule estas tabelas dinâmicas, gere notas para os slides”) exigem menos ciclos de falha/tentativa e menor supervisão humana.

3) Cinco níveis de esforço de raciocínio, modos extremos

A OpenAI indica múltiplos níveis de esforço de raciocínio — permitindo que usuários troquem latência/custo por uma computação interna de cadeia de pensamento mais profunda (modos às vezes chamados informalmente de xhigh ou raciocínio extremo). Eles se destinam a problemas em que mais deliberação interna melhora materialmente a correção (provas complexas, transformações longas de código, análises financeiras de múltiplas etapas). O preço da API e a lógica de cobrança refletem o trabalho adicional do modelo nesses modos.

Impacto prático: essa separação permite que os clientes escolham os trade-offs apropriados aos seus fluxos de trabalho em vez de exigir que um único modelo seja “tudo em um”.

4) Produtividade e criação de conteúdo

Modelagem em planilhas: o GPT-5.4 apresenta fortes melhorias em tarefas de planilhas, comuns em auditoria, finanças e análise. A OpenAI relata uma pontuação média de 87,3% em tarefas internas ao estilo “modelagem de investment banking” para o GPT-5.4 versus 68,4% para o GPT-5.2. É um aumento dramático na precisão em nível de tarefa para modelagem numérica e construção de fórmulas.
Apresentações e saída visual: avaliadores humanos preferiram as apresentações geradas pelo GPT-5.4 em 68,0% das vezes em relação às do GPT-5.2 devido a melhor estética, variedade e integração com geração de imagens. Isso reflete melhorias tanto de conteúdo quanto de forma na produção de apresentações.
Redação de documentos e textos longos: o GPT-5.4 foi otimizado para manter consistência em documentos longos, melhor comportamento de citação e menos contradições internas ao lidar com contextos grandes, graças à janela de contexto estendida e ao ajuste dedicado de raciocínio.

5) Segurança, mitigação e considerações cibernéticas

Redução de alucinações: a OpenAI relata que, em um conjunto de prompts desidentificados em que usuários apontaram erros factuais, afirmações individuais do GPT-5.4 são 33% menos propensas a ser falsas, e respostas completas são 18% menos propensas a conter quaisquer erros, em relação ao GPT-5.2 — um indicador-chave para adoção empresarial em que a precisão factual é importante.
Mitigações de cibersegurança (variante Thinking): o GPT-5.4 Thinking destaca um conjunto ampliado de mitigações para riscos cibernéticos, com base em proteções usadas em modelos Codex/5.3 anteriores. O GPT-5.4 Thinking foi projetado com salvaguardas adicionais para cenários de uso malicioso de alta capacidade.

Benchmarks de desempenho — o que os números dizem

A OpenAI e vários veículos publicaram resultados iniciais de benchmark como parte do lançamento. Como benchmarks diferentes testam capacidades distintas (navegação na web vs. conhecimento de domínio vs. segurança), é útil agregar os principais números e o que eles significam.

OpenAI lança a série GPT-5.4: o que o GPT-5.4 muda

Os resultados relatados mostram melhorias notáveis em relação aos membros anteriores da família GPT-5.x e competição acirrada com outros modelos de ponta.

Benchmarks de interação na web e no desktop

WebArena-Verified (testes de uso de navegador): o GPT-5.4 atinge 67,3% de sucesso ao usar sinais de DOM e captura de tela, comparado aos 65,4% do GPT-5.2 — um aumento visível, ainda que não enorme. Isso mede tarefas em que o modelo deve interagir com páginas e elementos de UI em tempo real.
Online-Mind2Web (tarefas de navegador baseadas em captura de tela): o GPT-5.4 alcançou 92,8% de sucesso usando apenas observações de captura de tela — uma melhora especialmente forte em relação a bases anteriores de estilo agente (a OpenAI contrastou isso com o desempenho do Agent Mode do ChatGPT Atlas).
OSWorld-Verified (navegação em desktop): relatos independentes indicaram o GPT-5.4 com 75,0% em um benchmark que avalia navegação em ambientes desktop e conclusão de tarefas. Esse resultado posicionou o 5.4 à frente de muitas bases públicas para tarefas de automação ponta a ponta.

Conclusão: as melhorias do 5.4 são mais pronunciadas onde entender contexto visual, affordances de UI e sequências longas de ações é essencial — isto é, em fluxos de trabalho orientados a agentes.

Benchmarks de saúde, segurança e conhecimento

O relatório de segurança de implantação da OpenAI mostra sinais mistos:

HealthBench: o GPT-5.4 marcou 62,6% (um declínio modesto em relação aos 63,3% do GPT-5.2), indicando sutis trade-offs entre capacidade e certas métricas de avaliação de saúde nos testes instantâneos relatados pela OpenAI.
Hard: o GPT-5.4 obteve 40,1% em um conjunto de avaliação “Hard” (levemente abaixo dos 42,0%).
Consensus: o GPT-5.4 registrou 96,6% em “Consensus”, uma métrica que reflete concordância com respostas de consenso curadas (um aumento de ~2,1 pontos).

A OpenAI também observou mudanças no comprimento médio das respostas em avaliações de saúde (o GPT-5.4 teve média de ~3.311 caracteres vs. 2.676 para o GPT-5.2), o que pode afetar como o modelo aborda tópicos sensíveis.

Interpretação: as métricas de segurança e saúde mostram que o 5.4 aumentou o alinhamento ao consenso e mudou a verbosidade das respostas, embora algumas pontuações de saúde específicas tenham caído ligeiramente. Esse padrão frequentemente reflete o reequilíbrio de objetivos do modelo — respostas mais decididas e longas podem ajudar a utilidade e o consenso, exigindo monitoramento cuidadoso em domínios sensíveis.

Exemplos e alegações específicos de domínio

Testes iniciais forneceram alegações concretas e setorizadas (OpenAI e fontes de terceiros):

Legal reasoning benchmark (BigLaw Bench) — o GPT-5.4 alcançando ~91% em recortes de raciocínio jurídico em testes iniciais, um forte sinal para tarefas de análise de documentos; observe que são números iniciais, não revisados por pares.
Reduções de alucinações: as respostas do GPT-5.4 são ~33% menos propensas a conter afirmações falsas e ~18% menos propensas a conter erros factuais em comparação com certas bases anteriores. Esses percentuais foram destacados em reportagens secundárias e comunicações da empresa; como em qualquer alegação desse tipo, dependem do conjunto de benchmarks e da metodologia de amostragem.

Como obter e pagar pelo GPT-5.4

Níveis do ChatGPT e acesso corporativo

Segundo a OpenAI e relatos de produto:

Usuários do ChatGPT Plus / Team / Pro foram os primeiros a receber o GPT-5.4 Thinking no produto. Administradores Enterprise e Education podem habilitar acesso antecipado por meio de controles de administrador. Usuários Free/Go não têm acesso garantido imediato. Desenvolvedores podem chamar os endpoints gpt-5.4 e gpt-5.4-pro via API.

Visão geral de preços da API (preços publicados para desenvolvedores)

A precificação para desenvolvedores da OpenAI lista o GPT-5.4 como um modelo de fronteira com cobrança por token. Conforme publicado na página pública de preços no momento do anúncio, taxas de exemplo para o GPT-5.4 são aproximadamente:

Modelo	Entrada	Entrada em cache	Saída
gpt-5.4 (<272K context length)	$2.50	$0.25	$15.00
gpt-5.4 (>272K context length)	$5.00	$0.50	$22.50
gpt-5.4-pro (<272K context length)	$30.00		$180.00
gpt-5.4-pro (>272K context length)	$60.00		$270.00

Na CometAPI (uma plataforma agregadora única para APIs de grandes modelos):

Modelo	Preço na Comet (USD / M tokens)	Preço oficial (USD / M tokens)	Desconto
gpt-5.4	Entrada:$2/M; Saída:$16/M	Entrada:$2.5/M; Saída:$20/M	-20%
gpt-5.4-pro	Entrada:$24/MSaída:$192/M	Entrada:$30/MSaída:$240/M	-20%

Portanto, recomendo fortemente a CometAPI, pois pode reduzir significativamente os custos da API.

Considerações sobre gestão de custos

Se você planeja usar o modelo em escala, particularmente em cenários de documentos longos ou de alta vazão, considere:

Cache e deduplicação de entradas (para usar preços de entrada em cache quando possível).
Engenharia de prompt para comprimir o contexto e evitar tokens redundantes.
Estratégias de processamento em lote e pós-processamento que minimizem a geração de saída cara.
Monitoramento do uso dos modos de raciocínio, já que modos de raciocínio mais profundos podem acarretar custo computacional maior.

Comparação: GPT-5.4 vs GPT-5.3

Onde o GPT-5.4 melhora em relação ao GPT-5.3

Profundidade de raciocínio e orquestração de ferramentas: o 5.4 Thinking foi explicitamente ajustado para superar o 5.3 em raciocínio de múltiplas etapas e casos de uso orientados a agentes. Isso aparece em benchmarks de interação web/desktop e métricas de sucesso de agentes.
Capacidade de contexto: a oferta de 1M tokens do 5.4 é um claro avanço técnico além do que o 5.3 fornecia na disponibilidade da API mainstream, habilitando novas classes de tarefas em sessão única.
Melhorias de desempenho por domínio: números iniciais da OpenAI e relatórios de terceiros apontam melhorias em certos benchmarks jurídicos e de documentos, onde o contexto mais longo e o ajuste especializado do 5.4 ajudam.

Trade-offs e onde o 5.3 ainda pode ser preferível

Uso conversacional leve: GPT-5.3 Instant permanece otimizado para fluxos conversacionais rápidos e econômicos; organizações que buscam a menor latência/custo para interações de chat curtas podem preferi-lo.
Estabilidade de métricas de segurança: algumas pontuações de saúde e “hard” mostraram leves quedas no 5.4 versus 5.2 nos snapshots da OpenAI; empresas em domínios regulados sensíveis devem validar o modelo em suas próprias suítes de avaliação antes da adoção total.

Casos de uso e implicações para o setor

A combinação do GPT-5.4 de raciocínio profundo, memória de longo contexto e uso de ferramentas abre várias oportunidades práticas e estratégicas.

1. Serviços profissionais e consultoria

Empresas que produzem entregáveis longos (por exemplo, petições jurídicas, relatórios de consultoria multicapítulo, pacotes de due diligence de M&A) podem manter documentos e conjuntos de dados inteiros em contexto, permitindo síntese coerente entre documentos, QA automatizado e geração de resumos executivos sem costura manual de fragmentos. Vitórias em benchmarks no APEX-Agents alinham-se com esse posicionamento.

2. Engenharia de software e raciocínio sobre bases de código

Contextos mais longos significam que uma única chamada do modelo pode incluir repositórios inteiros ou longas trilhas de logs. As melhorias do GPT-5.4 em benchmarks de SWE indicam melhor desempenho para depuração, refatoração e fluxos de revisão de código — especialmente quando combinado com o Pro para cargas sustentadas.

3. Agentes autônomos e automação empresarial

Sistemas de agente que operam sobre ferramentas (planilhas, sistemas de tickets, interfaces web) se beneficiam da melhor seleção de ferramentas do GPT-5.4, da redução de overhead de tokens para fluxos de agente e da melhoria na preservação de estado de longo prazo. Isso torna o GPT-5.4 atraente para pipelines de automação empresarial e “assistentes que agem” em múltiplos sistemas.

Em resumo — o que o GPT-5.4 muda

O GPT-5.4 representa um avanço pragmático e orientado a capacidades rumo a modelos que conseguem lidar com raciocínio longo e multidocumento, executar fluxos de trabalho de agente com maior confiabilidade e escalar em pipelines profissionais por meio de contratos Pro. Para organizações cujos fluxos de trabalho são de longo prazo e dependentes de ferramentas, o GPT-5.4 representa uma mudança de patamar em potencial de produtividade

Desenvolvedores podem acessar GPT-5.4, GPT-5.4-pro, e GPT 5.3 Chat via CometAPI agora.Para começar, explore os recursos do modelo no Playground e consulte o guia da API para instruções detalhadas. Antes de acessar, certifique-se de ter feito login na CometAPI e obtido a chave de API. A CometAPI oferece um preço muito inferior ao oficial para ajudar na sua integração.

Pronto para começar?→ Inscreva-se no GPT-5.4 hoje mesmo !

Se quiser saber mais dicas, guias e notícias sobre IA, siga-nos no VK, X e Discord!