Informações básicas e principais recursos

GPT-5 mini é o membro da família GPT-5 da OpenAI otimizado para custo e latência, projetado para oferecer grande parte dos pontos fortes multimodais e de seguimento de instruções do GPT-5 a um custo substancialmente menor para uso em produção em larga escala. Ele é voltado para ambientes em que taxa de transferência, preço previsível por token e respostas rápidas são as principais restrições, ao mesmo tempo em que ainda fornece fortes capacidades de uso geral.

Nome do modelo: gpt-5-mini
Janela de contexto: 400 000 tokens
Máximo de tokens de saída: 128 000
Principais recursos: velocidade, taxa de transferência, eficiência de custo, saídas determinísticas para prompts concisos

Como o `gpt-5-mini` funciona?

Caminho de inferência e implantação otimizados. Os ganhos práticos de velocidade vêm de fusão de kernels, paralelismo de tensores ajustado para um grafo menor e um tempo de execução de inferência que prefere loops internos de “raciocínio” mais curtos, a menos que o desenvolvedor solicite um raciocínio mais profundo. É por isso que o mini alcança um custo computacional visivelmente menor por chamada e latência previsível para tráfego de alto volume. Esse trade-off é deliberado: menor computação por passagem direta → menor custo e menor latência média.

Controles do desenvolvedor. O GPT-5 mini expõe parâmetros como verbosity (controla o nível de detalhe/comprimento) e reasoning_effort (equilibra velocidade vs. profundidade), além de um suporte robusto a chamadas de ferramentas (chamadas de função, cadeias paralelas de ferramentas e tratamento estruturado de erros), o que permite aos sistemas de produção ajustar com precisão a relação entre acurácia e custo.

Desempenho em benchmarks — números principais e interpretação

O GPT-5 mini normalmente fica dentro de ~85–95% do GPT-5 high em benchmarks gerais, ao mesmo tempo em que melhora substancialmente a latência/preço. Os materiais de lançamento da plataforma indicam pontuações absolutas muito altas para o GPT-5 high (AIME ≈ 94.6% relatado para a variante principal), com o mini um pouco abaixo, mas ainda líder do setor para sua faixa de preço.

Em uma variedade de benchmarks padronizados e internos, o GPT-5 mini alcança:

Inteligência (AIME ’25): 91.1% (vs. 94.6% para GPT-5 high)
Multimodal (MMMU): 81.6% (vs. 84.2% para GPT-5 high)
Programação (SWE-bench Verified): 71.0% (vs. 74.9% para GPT-5 high)
Seguimento de instruções (Scale MultiChallenge): 62.3% (vs. 69.6%)
Chamada de função (τ²-bench telecom): 74.1% (vs. 96.7%)
Taxas de alucinação (LongFact-Concepts): 0.7% (quanto menor, melhor)([OpenAI][4])

Esses resultados demonstram os trade-offs robustos do GPT-5 mini entre desempenho, custo e velocidade.

Limitações

Limitações conhecidas: GPT-5 mini capacidade reduzida de raciocínio profundo em comparação com o GPT-5 completo, maior sensibilidade a prompts ambíguos e riscos remanescentes de alucinação.

Raciocínio profundo reduzido: Para tarefas de raciocínio de múltiplas etapas e de longo horizonte, o modelo completo de raciocínio ou variantes de “thinking” superam o mini.
Alucinações e excesso de confiança: O mini reduz a alucinação em relação a modelos muito pequenos, mas não a elimina; as saídas devem ser validadas em fluxos de alto risco (jurídico, clínico, conformidade).
Sensibilidade ao contexto: Cadeias de contexto muito longas e altamente interdependentes são mais bem atendidas pelas variantes completas do GPT-5 com janelas de contexto maiores ou pelo modelo “thinking”.
Limites de segurança e política: As mesmas proteções de segurança e limites de taxa/uso aplicáveis a outros modelos GPT-5 também se aplicam ao mini; tarefas sensíveis exigem supervisão humana.

O que o `gpt-5-mini` faz?

Agentes conversacionais de alto volume: baixa latência, custo previsível.
Resumo de documentos e multimodal: resumo de contexto longo, relatórios de imagem + texto.
Ferramentas para desenvolvedores em escala: verificações de código em CI, revisão automática, geração leve de código.
Orquestração de agentes: chamada de ferramentas com cadeias paralelas quando não é necessário raciocínio profundo.

Como começo a usar a API `gpt-5-mini`?

Etapas obrigatórias

Faça login em cometapi.com. Se você ainda não for nosso usuário, registre-se primeiro
Obtenha a credencial de acesso, a chave de API da interface. Clique em “Add Token” na seção de token de API no centro pessoal, obtenha a chave do token: sk-xxxxx e envie.
Obtenha a URL deste site: https://api.cometapi.com/

Método de uso

Selecione o endpoint “gpt-5-mini“ / "gpt-5-mini-2025-08-07" para enviar a solicitação da API e defina o corpo da solicitação. O método de solicitação e o corpo da solicitação podem ser obtidos na documentação da API em nosso site. Nosso site também fornece teste no Apifox para sua conveniência.
Substitua <YOUR_API_KEY> pela sua chave real da CometAPI da sua conta.
Insira sua pergunta ou solicitação no campo content — é a isso que o modelo responderá.
. Processe a resposta da API para obter a resposta gerada.

A CometAPI fornece uma API REST totalmente compatível — para migração sem interrupções. Detalhes principais na documentação da API:

Parâmetros principais: prompt, max_tokens_to_sample, temperature, stop_sequences
Endpoint: https://api.cometapi.com/v1/chat/completions
Parâmetro do modelo: “gpt-5-mini“ / "gpt-5-mini-2025-08-07"
Autenticação: Bearer YOUR_CometAPI_API_KEY
Content-Type: application/json .

Instruções de chamada da API: gpt-5-chat-latest deve ser chamado usando o formato padrão /v1/chat/completions. Para outros modelos (gpt-5, gpt-5-mini, gpt-5-nano e suas versões datadas), recomenda-se usar o formato /v1/responses is recommended. Atualmente, dois modos estão disponíveis.

GPT-5 mini

Informações básicas e principais recursos

Como o `gpt-5-mini` funciona?

Desempenho em benchmarks — números principais e interpretação

Limitações

O que o `gpt-5-mini` faz?

Como começo a usar a API `gpt-5-mini`?

Etapas obrigatórias

Método de uso

Preços para GPT-5 mini

Código de exemplo e API para GPT-5 mini

Python Code Example

JavaScript Code Example

Curl Code Example