GPT-5 mini é um leve, variante otimizada em termos de custo do modelo GPT-5 da OpenAI, projetado para fornecer alta qualidade raciocínio e capacidades multimodais com latência e despesas reduzidas.
Informações básicas e principais recursos
GPT-5 mini é da OpenAI otimizado em termos de custo e latência membro da família GPT-5, destinado a fornecer muitos dos pontos fortes multimodais e de acompanhamento de instruções do GPT-5 em custo substancialmente menor para uso em produção em larga escala. Ele tem como alvo ambientes onde Taxa de transferência, preços previsíveis por token e respostas rápidas são as principais restrições, ao mesmo tempo em que fornecem fortes capacidades de uso geral.
- Nome do modelo:
gpt-5-mini - Janela de contexto: 400 fichas
- Tokens de saída máxima: 128 000
- Características chave: velocidade, rendimento, custo-benefício, saídas determinísticas para prompts concisos
Detalhes técnicos — arquitetura, inferência e controles
Caminho de inferência e implantação otimizados. Acelerações práticas vêm de fusão de kernel, paralelismo tensorial ajustado para um gráfico menor, e um tempo de execução de inferência que prefere ciclos internos de “pensamento” mais curtos A menos que o desenvolvedor solicite um raciocínio mais aprofundado. É por isso que o mini alcança uma computação por chamada notavelmente menor e latência previsível para tráfego de alto volume. Essa compensação é deliberada: menor computação por passagem direta → menor custo e menor latência média.
Controles do desenvolvedor. O GPT-5 mini expõe parâmetros como verbosity (controla detalhes/comprimento) e reasoning_effort (velocidade de negociação vs. profundidade), além de robusto chamada de ferramentas suporte (chamadas de função, cadeias de ferramentas paralelas e tratamento de erros estruturado), o que permite que os sistemas de produção ajustem a precisão em relação ao custo com precisão.
Desempenho de referência — números principais e interpretação
O GPT-5 mini normalmente fica dentro de ~85–95% do GPT-5 em alta nos benchmarks gerais, melhorando substancialmente a latência/preço. Os materiais de lançamento da plataforma indicam pontuações absolutas muito altas para GPT-5 alto (AIME ≈ 94.6% relatado para a variante superior), com o mini um pouco mais barato, mas ainda líder do setor em sua faixa de preço.
Em uma série de benchmarks padronizados e internos, GPT-5 mini alcança:
- Inteligência (AIME '25): 91.1% (vs. 94.6% para GPT-5 alto)
- multimodal (MMMU): 81.6% (vs. 84.2% para GPT-5 alto)
- Codificação (SWE-bench Verified): 71.0% (vs. 74.9% para GPT-5 alto)
- Instrução seguinte (Escala MultiDesafio): 62.3% (vs. 69.6%)
- Chamada de função (τ²-bench telecom): 74.1% (vs. 96.7%)
- Taxas de alucinação (LongFact-Concepts): 0.7% (quanto menor, melhor)()
Esses resultados demonstram o GPT-5 mini uma conta de despesas robusta compensações entre desempenho, custo e velocidade.
Limitações
Limitações conhecidas: GPT-5 mini capacidade reduzida de raciocínio profundo em comparação ao GPT-5 completo, maior sensibilidade a estímulos ambíguos e riscos remanescentes de alucinação.
- Raciocínio profundo reduzido: Para tarefas de raciocínio de longo prazo e múltiplas etapas, o modelo de raciocínio completo ou variantes de “pensamento” superam o mini.
- Alucinações e excesso de confiança: O Mini reduz a alucinação em relação a modelos muito pequenos, mas não a elimina; as saídas devem ser validadas em fluxos de alto risco (legais, clínicos, de conformidade).
- Sensibilidade ao contexto: Cadeias de contexto muito longas e altamente interdependentes são melhor atendidas pelas variantes completas do GPT-5 com janelas de contexto maiores ou pelo modelo de “pensamento”.
- Limites de segurança e política: As mesmas proteções de segurança e limites de taxa/uso que se aplicam a outros modelos GPT-5 se aplicam ao mini; tarefas sensíveis exigem supervisão humana.
Casos de uso recomendados (onde o mini se destaca)
- Agentes de conversação de alto volume: baixa latência, custo previsível. Palavra-chave: Taxa de transferência.
- Documento e sumarização multimodal: resumo de contexto longo, relatórios de imagem+texto. Palavra-chave: contexto longo.
- Ferramentas para desenvolvedores em escala: Verificações de código CI, revisão automática, geração de código leve. Palavra-chave: codificação econômica.
- Orquestração de agentes: chamada de ferramentas com cadeias paralelas quando não é necessário raciocínio profundo. Palavra-chave: chamada de ferramenta.
Como ligar gpt-5-mini API da CometAPI
gpt-5-mini Preços da API no CometAPI, 20% de desconto sobre o preço oficial:
| Tokens de entrada | $0.20 |
| Tokens de saída | $1.60 |
Etapas Necessárias
- Faça o login no cometapi.com. Se você ainda não é nosso usuário, registre-se primeiro
- Obtenha a chave de API da credencial de acesso da interface. Clique em "Adicionar Token" no token da API no centro pessoal, obtenha a chave de token: sk-xxxxx e envie.
- Obtenha a URL deste site: https://api.cometapi.com/
Use o método
- Selecione a opção "
gpt-5-mini“/“gpt-5-mini-2025-08-07” endpoint para enviar a solicitação de API e definir o corpo da solicitação. O método e o corpo da solicitação são obtidos da documentação da API do nosso site. Nosso site também oferece o teste Apifox para sua conveniência. - Substituir com sua chave CometAPI real da sua conta.
- Insira sua pergunta ou solicitação no campo de conteúdo — é a isso que o modelo responderá.
- . Processe a resposta da API para obter a resposta gerada.
A CometAPI fornece uma API REST totalmente compatível — para uma migração perfeita. Detalhes importantes para Doc API:
- Parâmetros principais:
prompt,max_tokens_to_sample,temperature,stop_sequences - Endpoint: https://api.cometapi.com/v1/chat/completions
- Parâmetro do modelo: "
gpt-5-mini“/“gpt-5-mini-2025-08-07" - Autenticação:
Bearer YOUR_CometAPI_API_KEY - Tipo de conteúdo:
application/json.
Instruções de chamada de API: gpt-5-chat-latest deve ser chamado usando o padrão /v1/chat/completions format. Para outros modelos (gpt-5, gpt-5-mini, gpt-5-nano e suas versões datadas), usando the /v1/responses format é recomendado. Atualmente, dois modos estão disponíveis.
Veja também GPT-5 Modelo


