MiniMax M2.5: benchmarks de programación, precios y guía de uso

Un modelo de propósito general ampliamente actualizado llamado MiniMax M2.5, anunciado por MiniMax y posicionado como un modelo creado específicamente para flujos de trabajo basados en agentes, generación de código y “productividad en el mundo real”. La empresa describe M2.5 como el resultado de un entrenamiento de aprendizaje por refuerzo extensivo en cientos de miles de entornos complejos, ofreciendo grandes mejoras en benchmarks de codificación, uso de herramientas y razonamiento de largo contexto, a la vez que impulsa la eficiencia de inferencia y la rentabilidad.

Ya puedes ver MiniMax M2.5 en CometAPI. Su precio es el 20% del precio oficial en CometAPI.

¿Qué es MiniMax M2.5 y por qué importa?

MiniMax M2.5 es la versión principal más reciente de MiniMax, una familia de modelos orientada a flujos de trabajo de alto rendimiento basados en agentes y —sobre todo— productividad en codificación. Anunciado a mediados de febrero de 2026, M2.5 amplía el trabajo previo de la serie M con una ventana de contexto mayor, primitivas de integración de herramientas más ajustadas y un énfasis de entrenamiento en “espacios de trabajo nativos de IA”, donde el modelo orquesta activamente búsquedas en el navegador, llamadas a API y pasos de ejecución de código en lugar de solo devolver texto. El mensaje de lanzamiento enmarca a M2.5 no solo como una mejora conversacional general, sino como un movimiento a nivel de plataforma: está destinado a acelerar la productividad de los desarrolladores, automatizar tareas de ingeniería repetitivas y servir como motor para productos impulsados por agentes.

Por qué esto importa hoy tiene dos vertientes. Primero, el modelo alcanza un conjunto de benchmarks prácticos y objetivos de rendimiento que lo hacen atractivo para sistemas de producción (no solo demos de investigación). Segundo, el lanzamiento señala cómo los proveedores están priorizando el uso integrado de herramientas y la eficiencia de tokens: M2.5 está explícitamente ajustado para reducir el número de rondas de llamadas a herramientas y el consumo de tokens durante tareas de múltiples pasos, lo cual se traduce directamente en menor costo y latencia en despliegues del mundo real.

¿Cómo se desempeña MiniMax M2.5 en los benchmarks de programación?

Panorama del rendimiento en programación

MiniMax M2.5 ha llamado rápidamente la atención por su desempeño en benchmarks estándar de codificación usados en la industria de IA para evaluar la generación de código práctica y el razonamiento:

Conjunto de benchmarks	Resultado de M2.5	Explicación
SWE-Bench Verified	80.2%	Mide la capacidad de corregir issues reales de GitHub; rendimiento cercano a la cima.
Multi-SWE-Bench	51.3%	Evalúa la confiabilidad de codificación entre múltiples archivos y repositorios.
SWE-Bench Pro	55.4%	Prueba de codificación del mundo real más difícil.

Los datos de benchmarking sugieren que la destreza de M2.5 en codificación iguala a modelos propietarios de alto ranking como Claude Opus 4.6 de Anthropic y GPT-5.2 de OpenAI, situando a M2.5 entre los principales contendientes para tareas de ingeniería de software en producción. Superar el 80% en este benchmark indica que M2.5 es capaz de brindar asistencia en ingeniería de software práctica, no solo generación de código teórica. Esto lo hace especialmente valioso para flujos de trabajo empresariales donde la corrección, la fiabilidad y el mantenimiento son prioridades de primer nivel.

Estas cifras muestran a M2.5 operando en niveles líderes de la industria sin la carga de precios extrema típica de muchos sistemas propietarios cerrados, un punto que desafía directamente la percepción reciente de la industria de que el alto desempeño necesariamente correlaciona con un alto costo.

¿Cómo se comporta M2.5 en flujos de trabajo de ingeniería reales?

Más allá de las puntuaciones brutas, lo destacable es cómo M2.5 está diseñado para canalizaciones basadas en agentes. El modelo incluye primitivas para pensamiento intercalado (deliberación interna entre llamadas a herramientas), un razonamiento de código más sólido en múltiples turnos y una estrategia de gestión de contexto para bases de código extensas. En pruebas tempranas, revisores informaron que M2.5 generó una gran proporción de código listo para commit para ciertas clases de tareas y requirió menos correcciones humanas que versiones anteriores de MiniMax. Esa combinación —mayor corrección en el primer intento y menos ciclos de ida y vuelta— es lo que hace a M2.5 atractivo para funciones de asistencia de código y automatización de CI.

Búsqueda y llamadas a herramientas de MiniMax M2.5

Aunque el rendimiento en codificación suele ser una métrica central para los LLM orientados a desarrolladores, M2.5 está diseñado para una productividad más amplia:

Tipo de tarea	Benchmark	Puntuación de M2.5
Búsqueda web y contexto	BrowseComp	76.3%
Razonamiento con herramientas	BFCL Multi-Turn	76.8%
Orquestación de flujos	MEWC (Multi-Expert)	74.4%
Productividad de oficina	VIBE-Pro Suite	54.2%

Estas métricas resaltan que las capacidades de M2.5 se extienden hacia razonamiento denso de múltiples pasos, búsqueda efectiva dentro del contexto almacenado e interacciones con herramientas de largo horizonte: competencias clave para asistentes y agentes multimodales robustos.

¿Puede encontrar y usar herramientas de forma eficaz?

Una de las mejoras destacadas en M2.5 es la integración de herramientas. La capacidad interna de “pensamiento intercalado” le permite reflexionar antes y después de cada llamada a herramienta, decidir si necesita otra búsqueda o una herramienta diferente y sintetizar salidas de herramientas dispares en un siguiente paso coherente. En la práctica, esto reduce el número de rondas de llamadas a herramientas necesarias para resolver una tarea de múltiples pasos (buscar → obtener → analizar → actuar). La documentación de la plataforma y reseñas prácticas reportan aproximadamente un 20% menos de rondas de llamadas a herramientas y un aumento significativo en la “madurez de decisión”, lo que significa que el modelo realiza menos llamadas redundantes o prematuras.

Los benchmarks enfocados en navegación y flujos de trabajo con herramientas (BrowseComp, BFCL) sitúan a M2.5 cerca de la cima para tareas basadas en agentes. Se reportaron puntuaciones en BrowseComp en la mitad de la franja del 70%, y las pruebas de llamadas a herramientas estilo BFCL muestran alta precisión en la orquestación de herramientas de múltiples pasos. Esos resultados importan para cualquier producto que espere que un modelo sintetice datos web en vivo, llame APIs específicas de dominio o manipule activamente archivos y código en nombre del usuario.

¿Qué significa esto para las integraciones?

Para ingenieros que construyen asistentes, bots o canalizaciones de automatización, la conclusión es que M2.5 no solo es “mejor en búsquedas”, sino mejor en la toma de decisiones sobre las búsquedas. Eso significa menos idas y vueltas, menos desperdicio de tokens y código de orquestación más simple en muchos casos.

¿Cuáles son las características de eficiencia y velocidad de MiniMax M2.5?

Uno de los atributos principales de M2.5 es su velocidad y eficiencia de inferencia, una consideración crítica para el uso en el mundo real donde el rendimiento afecta tanto el costo como la latencia.

Métricas de eficiencia

Métrica	Valor
Mejora de velocidad vs M2.1	+37%
Velocidad estándar de salida	50 tokens/second
Velocidad “Lightning” de salida	100 tokens/second
Tokens típicos por tarea	~3.52M tokens para tareas complejas

La variante Lightning iguala el rendimiento de modelos como Claude Opus 4.6, pero crucialmente a una fracción del costo. Esto permite que M2.5 soporte flujos de trabajo continuos basados en agentes sin gastos prohibitivos de tokens durante sesiones prolongadas o uso operativo de alto volumen.

Implicaciones de ingeniería

Mayor rendimiento se correlaciona directamente con interacciones en tiempo real más rápidas en ciclos de desarrollo y flujos de trabajo automatizados.
Mejor eficiencia de tokens reduce el costo total en tareas extensas y de múltiples etapas como generación de documentación, depuración e integración entre sistemas.
Combinada con los altos benchmarks de razonamiento de M2.5, esta eficiencia significa mejores resultados a menor costo total de tiempo de ejecución en comparación con modelos frontera competidores.

¿Cuánto cuesta MiniMax M2.5? — Desglose de precios

Uno de los aspectos más disruptivos de M2.5 es su precio, posicionado como una alternativa rentable a los LLM propietarios. ¿Qué opciones de precios ofrece MiniMax?

MiniMax ofrece distintas opciones de consumo y suscripción dirigidas a desarrolladores y empresas. Los materiales públicos de la compañía describen dos enfoques de facturación para modelos de texto en producción: una suscripción “Coding Plan” (orientada a desarrolladores que ejecutan un volumen constante de prompts relacionados con código) y “Pay-As-You-Go” para uso medido y flexible. El Coding Plan está diseñado explícitamente para ofrecer una opción mensual económica para equipos de desarrollo, mientras que el pago por uso cobra por token o según el perfil de rendimiento seleccionado.

¿Cómo funciona el Coding Plan?

El Coding Plan se presenta como una suscripción mensual que agrupa un número fijo de “prompts” o sesiones durante un intervalo de tiempo (los ejemplos en la documentación incluyen niveles como starter/plus/max con diferentes asignaciones de prompts cada 5 horas). La justificación declarada es ofrecer una estructura de costos predecible y amigable para equipos que dependen de muchas sesiones cortas de asistencia de código, en lugar de solicitudes únicas de alto volumen.

	Starter	Plus	Max
Precio	$10 /month	$20 /month	$50 /month
Prompts	100 prompts / 5 hours	300 prompts / 5 hours	1000 prompts / 5 hours

	Starter	Plus	Max
Precio	$100 /year 120	$200 /year 240	$500 /year 600
Prompts	100 prompts / 5 hours	300 prompts / 5 hours	1000 prompts / 5 hours

Estructura de precios por tokens

Variante	Precio de entrada	Precio de salida	TPS (tokens/seg)	Notas
M2.5-Standard	$0.15/M	$1.20/M	50	Variante optimizada en costos.
M2.5-Lightning	$0.30/M	$2.40/M	100	Variante optimizada en velocidad.

Estas tarifas por token efectivamente democratizan la economía de los agentes de IA, permitiendo ejecutar modelos de forma continua a escala empresarial sin las barreras de costo que enfrentan muchos sistemas propietarios que fijan precios de tokens de salida 10×–30× más altos.

Costo operativo por hora

Usando la variante Lightning (100 TPS), una salida continua estable resulta aproximadamente en:

360,000 tokens generados por hora
Costo de salida = 360,000/1M × $2.40 ≈ $0.86
El costo de entrada añade una fracción más para ~$1/hora de costo total de salida continua

Esto es órdenes de magnitud más barato que los modelos frontera típicos, haciendo viables económicamente las operaciones basadas en agentes siempre activos para las empresas.

Buscas una forma más barata de usar M2.5

Disfruta de un descuento de Minimax-M2.5 al usar CometAPI:

Precio en Comet (USD / M tokens)	Precio oficial (USD / M tokens)	Descuento
Entrada:$0.24/M; Salida:$0.96/M	Entrada:$0.3/M; Salida:$1.2/M	-20%

¿Cómo empezar con MiniMax M2.5?

¿Dónde pueden los desarrolladores acceder al modelo?

MiniMax publica documentación y guías de plataforma para integrar M2.5 vía su API (los documentos de la plataforma incluyen guías para texto, codificación y flujos impulsados por herramientas). El modelo también está en algunas bibliotecas y registros de terceros (por ejemplo, varias bibliotecas de plataforma han publicado variantes de M2.5 para uso en la nube y para experimentación local). Eso significa que los desarrolladores pueden llamar a M2.5 a través de los endpoints oficiales de la API de MiniMax o usar herramientas de terceros compatibles donde estén disponibles.

Patrones de integración comunes

Asistente en IDE/Editor — conecta M2.5 a un plugin de IDE para proporcionar completados, explicaciones y generación de casos de prueba. Usa una suscripción “Coding Plan” si esperas muchas sesiones de desarrollador cortas.
Orquestación de agentes — integra M2.5 como el cerebro de decisión en un sistema de orquestación de múltiples herramientas; apóyate en su sólido comportamiento de llamadas a herramientas para gestionar acciones externas (APIs, consultas a bases de datos, ejecutores de pruebas). Asegura contratos de esquema explícitos para cargas útiles de API a fin de minimizar alucinaciones.
Búsqueda + aumento por recuperación — combina una pequeña capa de recuperación (almacén vectorial + reranker) para limitar el uso de tokens de contexto preservando la relevancia en consultas de documentos largos. El buen rendimiento de M2.5 en benchmarks de búsqueda lo vuelve un ajuste natural para generación aumentada con recuperación.
Transformación de código por lotes — aprovecha el modelo para refactors a gran escala o generación automatizada de pruebas ejecutando trabajos por lotes, donde el costo por hora y los ajustes de rendimiento son particularmente importantes para la economía del modelo.

Consejos prácticos para mejores resultados

Usa ejemplos few-shot que reflejen el flujo del desarrollador (entrada, forma de salida deseada, casos de fallo) para mejorar la corrección en prompts de codificación o invocación de herramientas.
Bloquea las interfaces de herramientas con validación de esquema para que, cuando M2.5 emita una llamada a API, el sistema acepte solo cargas útiles validadas.
Monitorea el uso de tokens y establece salvaguardas (límites estrictos de tokens por llamada) para evitar facturas descontroladas.
Mide las tasas de éxito (p. ej., tasa de pruebas aprobadas para el código generado) en lugar de confiar únicamente en métricas de calidad subjetivas.

Conclusión

MiniMax M2.5 representa un paso pragmático hacia adelante en el nicho “agente + codificación” de los modelos grandes: combina sólidos benchmarks de programación, soporte explícito para el uso intercalado de herramientas y mejoras operativas destinadas a reducir costos de tokens y tiempo en flujos de trabajo reales. Para equipos enfocados en automatización de productividad de desarrolladores, generación de código y orquestación de múltiples herramientas, M2.5 vale la pena para un piloto, especialmente donde la rentabilidad es una prioridad. Para equipos que requieren lo absolutamente más avanzado en cada benchmark de nicho sin importar el costo, las ofertas premium pueden aún mostrar ventajas incrementales; pero las compensaciones costo/desempeño hacen que M2.5 sea convincente para despliegues en producción en muchos escenarios del mundo real.

Los desarrolladores pueden acceder a MiniMax-M2.5 a través de CometAPI ahora. Para comenzar, explora las capacidades del modelo en el Playground y consulta la Guía de la API para instrucciones detalladas. Antes de acceder, asegúrate de haber iniciado sesión en CometAPI y obtenido la clave de API. CometAPI ofrece un precio muy inferior al oficial para ayudarte a integrar.

¿Listo para empezar? → Regístrate en glm-5 hoy

Si quieres conocer más consejos, guías y noticias sobre IA, síguenos en VK, X y Discord.