Información básica y funciones clave

GPT-5 mini es el miembro optimizado en costo y latencia de la familia GPT-5, diseñado para ofrecer gran parte de las capacidades multimodales y de seguimiento de instrucciones de GPT-5 a un costo sustancialmente menor para uso en producción a gran escala. Se orienta a entornos donde el rendimiento, la tarificación por token predecible y las respuestas rápidas son las principales restricciones, a la vez que proporciona sólidas capacidades de propósito general.

Nombre del modelo: gpt-5-mini
Ventana de contexto: 400 000 tokens
Máximo de tokens de salida: 128 000
Funciones clave: velocidad, rendimiento, eficiencia de costos, salidas deterministas para prompts concisos

¿Cómo funciona `gpt-5-mini`?

Ruta de inferencia y despliegue optimizados. Las aceleraciones prácticas provienen de la fusión de kernels, el paralelismo de tensores ajustado para un grafo más pequeño, y un tiempo de ejecución de inferencia que prefiere bucles internos de “pensamiento” más cortos a menos que el desarrollador solicite un razonamiento más profundo. Por eso mini logra un cómputo por llamada notablemente menor y una latencia predecible para tráfico de alto volumen. Esta compensación es deliberada: menos cómputo por pasada hacia adelante → menor costo y menor latencia promedio.

Controles para desarrolladores. GPT-5 mini expone parámetros como verbosity (controla el detalle/la longitud) y reasoning_effort (equilibra velocidad frente a profundidad), además de un sólido soporte de tool-calling (llamadas a funciones, cadenas de herramientas en paralelo y manejo estructurado de errores), lo que permite a los sistemas en producción ajustar con precisión la exactitud frente al costo.

Rendimiento en benchmarks — cifras principales e interpretación

GPT-5 mini suele situarse dentro del ~85–95% de GPT-5 high en benchmarks generales, mientras mejora sustancialmente la latencia/el precio. Los materiales de lanzamiento de la plataforma indican puntuaciones absolutas muy altas para GPT-5 high (AIME ≈ 94.6% reportado para la variante superior), con mini algo más bajo pero aún líder en la industria para su rango de precio.

En una variedad de benchmarks estandarizados e internos, GPT-5 mini alcanza:

Inteligencia (AIME ’25): 91.1% (vs. 94.6% para GPT-5 high)
Multimodal (MMMU): 81.6% (vs. 84.2% para GPT-5 high)
Programación (SWE-bench Verified): 71.0% (vs. 74.9% para GPT-5 high)
Seguimiento de instrucciones (Scale MultiChallenge): 62.3% (vs. 69.6%)
Llamado de funciones (τ²-bench telecom): 74.1% (vs. 96.7%)
Tasas de alucinación (LongFact-Concepts): 0.7% (cuanto más bajo, mejor)([OpenAI][4])

Estos resultados demuestran las sólidas compensaciones de GPT-5 mini entre rendimiento, costo y velocidad.

Limitaciones

Limitaciones conocidas: GPT-5 mini capacidad reducida de razonamiento profundo frente a GPT-5 completo, mayor sensibilidad a prompts ambiguos y riesgos persistentes de alucinación.

Razonamiento profundo reducido: Para tareas de razonamiento de múltiples pasos y horizonte largo, el modelo completo de razonamiento o las variantes de “pensamiento” superan a mini.
Alucinaciones y exceso de confianza: Mini reduce la alucinación en comparación con modelos muy pequeños, pero no la elimina; las salidas deben validarse en flujos de alto riesgo (legales, clínicos, de cumplimiento).
Sensibilidad al contexto: Cadenas de contexto muy largas y altamente interdependientes se sirven mejor con las variantes completas de GPT-5 con ventanas de contexto mayores o el modelo de “pensamiento”.
Límites de seguridad y políticas: Se aplican las mismas protecciones y límites de tasa/uso que para otros modelos GPT-5; las tareas sensibles requieren supervisión humana.

¿Qué hace `gpt-5-mini`?

Agentes conversacionales de alto volumen: baja latencia, costo predecible.
Resumen de documentos y multimodal: resumen de contexto largo, informes de imagen+texto.
Herramientas para desarrolladores a escala: comprobaciones de código en CI, revisión automática, generación ligera de código.
Orquestación de agentes: tool-calling con cadenas en paralelo cuando no se requiere razonamiento profundo.

¿Cómo empiezo a usar la API de `gpt-5-mini`?

Pasos necesarios

Inicia sesión en cometapi.com. Si aún no eres usuario, regístrate primero
Obtén la clave de API de credenciales de acceso de la interfaz. Haz clic en “Add Token” en el token de API del centro personal, obtén la clave de token: sk-xxxxx y envíala.
Obtén la URL de este sitio: https://api.cometapi.com/

Método de uso

Selecciona el endpoint “gpt-5-mini“ / "gpt-5-mini-2025-08-07" para enviar la solicitud de API y establece el cuerpo de la solicitud. El método y el cuerpo de la solicitud se obtienen de la documentación de la API de nuestro sitio web. Nuestro sitio web también ofrece pruebas en Apifox para tu comodidad.
Reemplaza <YOUR_API_KEY> por tu clave CometAPI real de tu cuenta.
Inserta tu pregunta o solicitud en el campo content—esto es a lo que responderá el modelo.
. Procesa la respuesta de la API para obtener la respuesta generada.

CometAPI proporciona una API REST totalmente compatible—para una migración sin fricciones. Detalles clave en API doc:

Parámetros principales: prompt, max_tokens_to_sample, temperature, stop_sequences
Endpoint: https://api.cometapi.com/v1/chat/completions
Parámetro de modelo: “gpt-5-mini“ / "gpt-5-mini-2025-08-07"
Autenticación: Bearer YOUR_CometAPI_API_KEY
Content-Type: application/json .

Instrucciones de llamada a la API: gpt-5-chat-latest debe llamarse usando el estándar /v1/chat/completions format. Para otros modelos (gpt-5, gpt-5-mini, gpt-5-nano, y sus versiones con fecha), usar the /v1/responses format is recommended. Actualmente hay dos modos disponibles.

GPT-5 mini

Información básica y funciones clave

¿Cómo funciona `gpt-5-mini`?

Rendimiento en benchmarks — cifras principales e interpretación

Limitaciones

¿Qué hace `gpt-5-mini`?

¿Cómo empiezo a usar la API de `gpt-5-mini`?

Pasos necesarios

Método de uso

Precios para GPT-5 mini

Código de ejemplo y API para GPT-5 mini

Python Code Example

JavaScript Code Example

Curl Code Example