Informações básicas e recursos principais

O GPT-5 mini é o membro da família GPT-5 da OpenAI otimizado para custo e latência, projetado para oferecer grande parte dos pontos fortes multimodais e de seguimento de instruções do GPT-5 a um custo substancialmente menor para uso em produção em larga escala. Ele atende a ambientes em que velocidade de processamento (throughput), preços por token previsíveis e respostas rápidas são as principais restrições, mantendo capacidades robustas de uso geral.

Nome do modelo: gpt-5-mini
Janela de contexto: 400 000 tokens
Máximo de tokens de saída: 128 000
Principais recursos: velocidade, taxa de transferência, eficiência de custo, saídas determinísticas para prompts concisos

Como o `gpt-5-mini` funciona?

Caminho de inferência e implantação otimizados. Acelerações práticas decorrem de fusão de kernels, paralelismo de tensores ajustado para um grafo menor e um runtime de inferência que privilegia ciclos internos de “raciocínio” mais curtos, a menos que o desenvolvedor solicite um raciocínio mais profundo. É por isso que o mini alcança computação visivelmente menor por chamada e latência previsível para tráfego de alto volume. Essa troca é deliberada: menor computação por forward pass → menor custo e menor latência média.

Controles para desenvolvedores. O GPT-5 mini expõe parâmetros como verbosity (controla nível de detalhe/comprimento) e reasoning_effort (troca entre velocidade e profundidade), além de suporte robusto a chamadas de ferramentas (chamadas de função, cadeias de ferramentas paralelas e tratamento de erros estruturado), o que permite que sistemas de produção ajustem com precisão a relação entre precisão e custo.

Desempenho em benchmarks — números principais e interpretação

O GPT-5 mini geralmente fica dentro de ~85–95% do GPT-5 high em benchmarks gerais, ao mesmo tempo em que melhora substancialmente latência/preço. Os materiais de lançamento da plataforma indicam pontuações absolutas muito altas para o GPT-5 high (AIME ≈ 94.6% relatado para a variante topo de linha), com o mini um pouco abaixo, mas ainda líder do setor por seu preço.

Em uma série de benchmarks padronizados e internos, o GPT-5 mini obtém:

Intelligence (AIME ’25): 91.1% (vs. 94.6% para o GPT-5 high)
Multimodal (MMMU): 81.6% (vs. 84.2% para o GPT-5 high)
Coding (SWE-bench Verified): 71.0% (vs. 74.9% para o GPT-5 high)
Instruction Following (Scale MultiChallenge): 62.3% (vs. 69.6%)
Function Calling (τ²-bench telecom): 74.1% (vs. 96.7%)
Taxas de alucinação (LongFact-Concepts): 0.7% (menor é melhor)([OpenAI][4])

Esses resultados demonstram os trade-offs robustos do GPT-5 mini entre desempenho, custo e velocidade.

Limitações

Limitações conhecidas: o GPT-5 mini apresenta capacidade de raciocínio profundo reduzida em comparação ao GPT-5 completo, maior sensibilidade a prompts ambíguos e riscos remanescentes de alucinação.

Raciocínio profundo reduzido: em tarefas de raciocínio de múltiplas etapas e de longo horizonte, o modelo completo de raciocínio ou variantes “thinking” superam o mini.
Alucinações e excesso de confiança: o mini reduz alucinações em relação a modelos muito pequenos, mas não as elimina; as saídas devem ser validadas em fluxos de alto risco (jurídico, clínico, compliance).
Sensibilidade ao contexto: cadeias de contexto muito longas e altamente interdependentes são mais bem atendidas pelas variantes completas do GPT-5 com janelas de contexto maiores ou pelo modelo “thinking”.
Segurança e limites de política: os mesmos guardrails de segurança e limites de taxa/uso que se aplicam a outros modelos GPT-5 também se aplicam ao mini; tarefas sensíveis exigem supervisão humana.

O que o `gpt-5-mini` faz?

Agentes conversacionais de alto volume: baixa latência, custo previsível.
Sumarização de documentos e multimodal: sumarização de longo contexto, relatórios de imagem+texto.
Ferramentas de desenvolvedor em escala: verificações de código em CI, revisão automática, geração leve de código.
Orquestração de agentes: chamadas de ferramentas com cadeias paralelas quando raciocínio profundo não é necessário.

Como começo a usar a API do `gpt-5-mini`?

Passos necessários

Faça login em cometapi.com. Se você ainda não é nosso usuário, cadastre-se primeiro.
Obtenha a chave de API de credenciais de acesso da interface. Clique em “Add Token” em API token no centro pessoal, obtenha a chave do token: sk-xxxxx e envie.
Obtenha a URL deste site: https://api.cometapi.com/

Método de uso

Selecione o endpoint “gpt-5-mini“ / "gpt-5-mini-2025-08-07" para enviar a solicitação de API e defina o corpo da requisição. O método de requisição e o corpo da requisição são obtidos na documentação da API em nosso site. Nosso site também fornece testes no Apifox para sua conveniência.
Substitua <YOUR_API_KEY> pela sua chave real da CometAPI na sua conta.
Insira sua pergunta ou solicitação no campo content — é isso que o modelo responderá.
. Processe a resposta da API para obter a resposta gerada.

A CometAPI fornece uma REST API totalmente compatível — para migração sem atritos. Detalhes principais na documentação da API:

Parâmetros principais: prompt, max_tokens_to_sample, temperature, stop_sequences
Endpoint: https://api.cometapi.com/v1/chat/completions
Parâmetro do modelo: “gpt-5-mini“ / "gpt-5-mini-2025-08-07"
Autenticação: Bearer YOUR_CometAPI_API_KEY
Content-Type: application/json .

Instruções de chamada da API: gpt-5-chat-latest deve ser chamado usando o padrão /v1/chat/completions format. Para outros modelos (gpt-5, gpt-5-mini, gpt-5-nano e suas versões datadas), o uso de the /v1/responses format é recomendado. Atualmente, dois modos estão disponíveis.

GPT-5 mini

Informações básicas e recursos principais

Como o `gpt-5-mini` funciona?

Desempenho em benchmarks — números principais e interpretação

Limitações

O que o `gpt-5-mini` faz?

Como começo a usar a API do `gpt-5-mini`?

Passos necessários

Método de uso

Recursos para GPT-5 mini

Preços para GPT-5 mini

Código de exemplo e API para GPT-5 mini

Mais modelos