Informações básicas e principais recursos
GPT-5 mini é o membro da família GPT-5 da OpenAI otimizado para custo e latência, projetado para oferecer grande parte dos pontos fortes multimodais e de seguimento de instruções do GPT-5 a um custo substancialmente menor para uso em produção em larga escala. Ele é voltado para ambientes em que taxa de transferência, preço previsível por token e respostas rápidas são as principais restrições, ao mesmo tempo em que ainda fornece fortes capacidades de uso geral.
- Nome do modelo:
gpt-5-mini - Janela de contexto: 400 000 tokens
- Máximo de tokens de saída: 128 000
- Principais recursos: velocidade, taxa de transferência, eficiência de custo, saídas determinísticas para prompts concisos
Como o gpt-5-mini funciona?
Caminho de inferência e implantação otimizados. Os ganhos práticos de velocidade vêm de fusão de kernels, paralelismo de tensores ajustado para um grafo menor e um tempo de execução de inferência que prefere loops internos de “raciocínio” mais curtos, a menos que o desenvolvedor solicite um raciocínio mais profundo. É por isso que o mini alcança um custo computacional visivelmente menor por chamada e latência previsível para tráfego de alto volume. Esse trade-off é deliberado: menor computação por passagem direta → menor custo e menor latência média.
Controles do desenvolvedor. O GPT-5 mini expõe parâmetros como verbosity (controla o nível de detalhe/comprimento) e reasoning_effort (equilibra velocidade vs. profundidade), além de um suporte robusto a chamadas de ferramentas (chamadas de função, cadeias paralelas de ferramentas e tratamento estruturado de erros), o que permite aos sistemas de produção ajustar com precisão a relação entre acurácia e custo.
Desempenho em benchmarks — números principais e interpretação
O GPT-5 mini normalmente fica dentro de ~85–95% do GPT-5 high em benchmarks gerais, ao mesmo tempo em que melhora substancialmente a latência/preço. Os materiais de lançamento da plataforma indicam pontuações absolutas muito altas para o GPT-5 high (AIME ≈ 94.6% relatado para a variante principal), com o mini um pouco abaixo, mas ainda líder do setor para sua faixa de preço.
Em uma variedade de benchmarks padronizados e internos, o GPT-5 mini alcança:
- Inteligência (AIME ’25): 91.1% (vs. 94.6% para GPT-5 high)
- Multimodal (MMMU): 81.6% (vs. 84.2% para GPT-5 high)
- Programação (SWE-bench Verified): 71.0% (vs. 74.9% para GPT-5 high)
- Seguimento de instruções (Scale MultiChallenge): 62.3% (vs. 69.6%)
- Chamada de função (τ²-bench telecom): 74.1% (vs. 96.7%)
- Taxas de alucinação (LongFact-Concepts): 0.7% (quanto menor, melhor)([OpenAI][4])
Esses resultados demonstram os trade-offs robustos do GPT-5 mini entre desempenho, custo e velocidade.
Limitações
Limitações conhecidas: GPT-5 mini capacidade reduzida de raciocínio profundo em comparação com o GPT-5 completo, maior sensibilidade a prompts ambíguos e riscos remanescentes de alucinação.
- Raciocínio profundo reduzido: Para tarefas de raciocínio de múltiplas etapas e de longo horizonte, o modelo completo de raciocínio ou variantes de “thinking” superam o mini.
- Alucinações e excesso de confiança: O mini reduz a alucinação em relação a modelos muito pequenos, mas não a elimina; as saídas devem ser validadas em fluxos de alto risco (jurídico, clínico, conformidade).
- Sensibilidade ao contexto: Cadeias de contexto muito longas e altamente interdependentes são mais bem atendidas pelas variantes completas do GPT-5 com janelas de contexto maiores ou pelo modelo “thinking”.
- Limites de segurança e política: As mesmas proteções de segurança e limites de taxa/uso aplicáveis a outros modelos GPT-5 também se aplicam ao mini; tarefas sensíveis exigem supervisão humana.
O que o gpt-5-mini faz?
- Agentes conversacionais de alto volume: baixa latência, custo previsível.
- Resumo de documentos e multimodal: resumo de contexto longo, relatórios de imagem + texto.
- Ferramentas para desenvolvedores em escala: verificações de código em CI, revisão automática, geração leve de código.
- Orquestração de agentes: chamada de ferramentas com cadeias paralelas quando não é necessário raciocínio profundo.
Como começo a usar a API gpt-5-mini?
Etapas obrigatórias
- Faça login em cometapi.com. Se você ainda não for nosso usuário, registre-se primeiro
- Obtenha a credencial de acesso, a chave de API da interface. Clique em “Add Token” na seção de token de API no centro pessoal, obtenha a chave do token: sk-xxxxx e envie.
- Obtenha a URL deste site: https://api.cometapi.com/
Método de uso
- Selecione o endpoint “
gpt-5-mini“ / "gpt-5-mini-2025-08-07" para enviar a solicitação da API e defina o corpo da solicitação. O método de solicitação e o corpo da solicitação podem ser obtidos na documentação da API em nosso site. Nosso site também fornece teste no Apifox para sua conveniência. - Substitua <YOUR_API_KEY> pela sua chave real da CometAPI da sua conta.
- Insira sua pergunta ou solicitação no campo content — é a isso que o modelo responderá.
- . Processe a resposta da API para obter a resposta gerada.
A CometAPI fornece uma API REST totalmente compatível — para migração sem interrupções. Detalhes principais na documentação da API:
- Parâmetros principais:
prompt,max_tokens_to_sample,temperature,stop_sequences - Endpoint: https://api.cometapi.com/v1/chat/completions
- Parâmetro do modelo: “
gpt-5-mini“ / "gpt-5-mini-2025-08-07" - Autenticação:
Bearer YOUR_CometAPI_API_KEY - Content-Type:
application/json.
Instruções de chamada da API: gpt-5-chat-latest deve ser chamado usando o formato padrão /v1/chat/completions. Para outros modelos (gpt-5, gpt-5-mini, gpt-5-nano e suas versões datadas), recomenda-se usar o formato /v1/responses is recommended. Atualmente, dois modos estão disponíveis.