Información básica y características clave

GPT-5 mini es el miembro de costo y latencia optimizados de la familia GPT-5 de OpenAI, diseñado para ofrecer gran parte de las capacidades multimodales y de seguimiento de instrucciones de GPT-5 a un costo sustancialmente menor para usos de producción a gran escala. Se orienta a entornos donde el rendimiento, la tarificación por token predecible y las respuestas rápidas son las principales restricciones, manteniendo sólidas capacidades de uso general.

Nombre del modelo: gpt-5-mini
Ventana de contexto: 400 000 tokens
Máximo de tokens de salida: 128 000
Características clave: velocidad, rendimiento, eficiencia de costos, salidas deterministas para prompts concisos

¿Cómo funciona `gpt-5-mini`?

Ruta de inferencia e implementación optimizadas. Las mejoras prácticas de velocidad provienen de la fusión de kernels, el paralelismo de tensores ajustado para un grafo más pequeño, y un entorno de inferencia que prefiere bucles internos de “thinking” más cortos a menos que el desarrollador solicite un razonamiento más profundo. Por eso mini logra un cómputo perceptiblemente menor por llamada y una latencia predecible para tráfico de alto volumen. Esta compensación es deliberada: menor cómputo por pase hacia adelante → menor costo y menor latencia promedio.

Controles para desarrolladores. GPT-5 mini expone parámetros como verbosity (controla detalle/longitud) y reasoning_effort (intercambia velocidad vs. profundidad), además de un sólido soporte de llamadas a herramientas (llamadas a funciones, cadenas de herramientas en paralelo y manejo estructurado de errores), lo que permite a los sistemas de producción ajustar con precisión la exactitud frente al costo.

Rendimiento en benchmarks — cifras destacadas e interpretación

Por lo general, GPT-5 mini se sitúa dentro de ~85–95% de GPT-5 high en benchmarks generales, mejorando sustancialmente la latencia/el precio. Los materiales de lanzamiento de la plataforma indican puntuaciones absolutas muy altas para GPT-5 high (AIME ≈ 94.6% informado para la variante superior), con mini algo por debajo pero aún líder del sector por su punto de precio.

En una variedad de benchmarks estandarizados e internos, GPT-5 mini logra:

Inteligencia (AIME ’25): 91.1% (frente a 94.6% de GPT-5 high)
Multimodal (MMMU): 81.6% (frente a 84.2% de GPT-5 high)
Programación (SWE-bench Verified): 71.0% (frente a 74.9% de GPT-5 high)
Seguimiento de instrucciones (Scale MultiChallenge): 62.3% (frente a 69.6%)
Llamadas de funciones (τ²-bench telecom): 74.1% (frente a 96.7%)
Tasas de alucinación (LongFact-Concepts): 0.7% (más bajo es mejor)([OpenAI][4])

Estos resultados demuestran los sólidos compromisos de GPT-5 mini entre desempeño, costo y velocidad.

Limitaciones

Limitaciones conocidas: GPT-5 mini capacidad reducida de razonamiento profundo frente al GPT-5 completo, mayor sensibilidad a prompts ambiguos y riesgos persistentes de alucinación.

Razonamiento profundo reducido: Para tareas de razonamiento de múltiples pasos y largo horizonte, el modelo de razonamiento completo o las variantes “thinking” superan a mini.
Alucinaciones y exceso de confianza: Mini reduce las alucinaciones en comparación con modelos muy pequeños, pero no las elimina; las salidas deben validarse en flujos de alto riesgo (legal, clínico, cumplimiento).
Sensibilidad al contexto: Cadenas de contexto muy largas y altamente interdependientes están mejor atendidas por las variantes completas de GPT-5 con ventanas de contexto más grandes o el modelo “thinking”.
Seguridad y límites de políticas: Se aplican las mismas protecciones y límites de tasa/uso que para otros modelos GPT-5; las tareas sensibles requieren supervisión humana.

¿Qué hace `gpt-5-mini`?

Agentes conversacionales de alto volumen: baja latencia, costo predecible.
Resumen de documentos y multimodal: resumen de largo contexto, informes imagen+texto.
Herramientas de desarrollador a escala: verificaciones de código en CI, revisión automática, generación de código ligera.
Orquestación de agentes: llamadas a herramientas con cadenas en paralelo cuando no se requiere razonamiento profundo.

¿Cómo empiezo a usar la API de `gpt-5-mini`?

Pasos necesarios

Inicia sesión en cometapi.com. Si aún no eres nuestro usuario, regístrate primero
Obtén la clave de API de credenciales de acceso de la interfaz. Haz clic en “Add Token” en el token de API del centro personal, obtén la clave del token: sk-xxxxx y envíala.
Obtén la URL de este sitio: https://api.cometapi.com/

Método de uso

Selecciona el endpoint “gpt-5-mini“ / "gpt-5-mini-2025-08-07" para enviar la solicitud de API y configura el cuerpo de la solicitud. El método y el cuerpo de la solicitud se obtienen de la documentación de la API de nuestro sitio web. Nuestro sitio web también proporciona pruebas en Apifox para tu comodidad.
Reemplaza <YOUR_API_KEY> por tu clave real de CometAPI de tu cuenta.
Inserta tu pregunta o solicitud en el campo de contenido—esto es lo que el modelo responderá.
. Procesa la respuesta de la API para obtener la respuesta generada.

CometAPI proporciona una API REST totalmente compatible — para una migración sin fricciones. Detalles clave en API doc:

Parámetros principales: prompt, max_tokens_to_sample, temperature, stop_sequences
Endpoint: https://api.cometapi.com/v1/chat/completions
Parámetro de modelo: “gpt-5-mini“ / "gpt-5-mini-2025-08-07"
Autenticación: Bearer YOUR_CometAPI_API_KEY
Content-Type: application/json .

Instrucciones de llamada a la API: gpt-5-chat-latest debe llamarse usando el /v1/chat/completions format estándar. Para otros modelos (gpt-5, gpt-5-mini, gpt-5-nano y sus versiones con fecha), usar the /v1/responses format is recommended. Actualmente hay dos modos disponibles.

GPT-5 mini

Información básica y características clave

¿Cómo funciona `gpt-5-mini`?

Rendimiento en benchmarks — cifras destacadas e interpretación

Limitaciones

¿Qué hace `gpt-5-mini`?

¿Cómo empiezo a usar la API de `gpt-5-mini`?

Pasos necesarios

Método de uso

Características para GPT-5 mini

Precios para GPT-5 mini

Código de ejemplo y API para GPT-5 mini

Más modelos