modelos
GPT Image 2 es el modelo de generación de imágenes de última generación de OpenAI para generar y editar imágenes de forma rápida y de alta calidad. Admite tamaños de imagen flexibles y entradas de imagen de alta fidelidad. Por Segundo:$0.063
Seedance 2.0 es el modelo fundacional multimodal de video de próxima generación de ByteDance, centrado en la generación de videos narrativos cinematográficos de múltiples tomas. A diferencia de las demostraciones de texto a video de una sola toma, Seedance 2.0 pone énfasis en el control basado en referencias (imágenes, clips cortos y audio), la coherencia de personajes y de estilo a lo largo de las tomas y la sincronización nativa de audio y video, con el objetivo de hacer que el video de IA sea útil para flujos de trabajo profesionales de creación y previsualización.El modelo más inteligente para agentes y programación Entrada:$2.4/M
Salida:$12/M
Claude Sonnet 4.6 es nuestro modelo Sonnet más capaz hasta la fecha. Es una actualización completa de las capacidades del modelo en programación, uso de computadoras, razonamiento con contexto largo, planificación de agentes, trabajo del conocimiento y diseño. Sonnet 4.6 también ofrece una ventana de contexto de 1M de tokens en beta.Destaca en el razonamiento agentivo, el trabajo del conocimiento y el uso de herramientas. Entrada:$24/M
Salida:$144/M
Un modelo avanzado diseñado para lógica extremadamente compleja y exigencias profesionales, que representa el estándar más alto de razonamiento profundo y capacidades analíticas precisas.Un modelo insignia multimodal de próxima generación que equilibra un rendimiento excepcional con una capacidad de respuesta eficiente, dedicado a proporcionar servicios de IA de propósito general integrales y estables. Por Solicitud:$0.04
GPT Image 2 es el modelo de generación de imágenes de vanguardia de OpenAI para una generación y edición de imágenes rápidas y de alta calidad. Admite tamaños de imagen flexibles y entradas de imagen de alta fidelidad.Entrada:$0.416/M
Salida:$0.832/M
DeepSeek V4 Pro es un modelo de mezcla de expertos a gran escala de DeepSeek, con 1.6T parámetros totales y 49B parámetros activados, que admite una ventana de contexto de 1M tokens. Está diseñado para el razonamiento avanzado, la programación y los flujos de trabajo de agentes de horizonte largo, con un sólido rendimiento en pruebas de referencia de conocimiento, matemáticas e ingeniería de software.Entrada:$0.12/M
Salida:$0.24/M
DeepSeek V4 Flash es un modelo de mezcla de expertos optimizado para la eficiencia, desarrollado por DeepSeek, con 284B parámetros totales y 13B parámetros activados, que admite una ventana de contexto de 1M tokens. Está diseñado para una inferencia rápida y cargas de trabajo de alto rendimiento, manteniendo un sólido rendimiento en razonamiento y programación.Entrada:$0.24/M
Salida:$0.96/M
MiniMax-M2.7 ofrece la misma inteligencia de primer nivel que la versión estándar, incluida la autoevolución recursiva y la productividad de oficina de nivel experto, pero está diseñado para aplicaciones que requieren latencia inferior a un segundo y generación de tokens de alta velocidad. Gracias a una arquitectura de backbone de inferencia mejorada, su velocidad de salida es un 66 % más rápida que la del modelo estándar (alcanzando 100 tps). Es la opción preferida para asistentes interactivos de programación, ejecución de bucles de agentes en tiempo real y pipelines empresariales de alto rendimiento con requisitos estrictos de tiempo de finalización.Contexto:400,000
Entrada:$0.16/M
Salida:$1/M
GPT-5.4 nano está diseñado para tareas en las que la velocidad y el coste son primordiales, como la clasificación, la extracción de datos, la ordenación y los subagentes.Contexto:400,000
Entrada:$0.6/M
Salida:$3.6/M
GPT-5.4 mini aporta las fortalezas de GPT-5.4 a un modelo más rápido y eficiente, diseñado para cargas de trabajo de alto volumen.Contexto:1,050,000
Entrada:$24/M
Salida:$144/M
Versión de GPT-5.4 que produce respuestas más inteligentes y precisas.Entrada:$0.4/M
Salida:$2.4/M
Descripción general de capacidades principales: Resolución: Hasta 4K (4096×4096), a la par de Pro. Consistencia de imágenes de referencia: Hasta 14 imágenes de referencia (10 objetos + 4 personajes), manteniendo la consistencia de estilo y personajes. Relaciones de aspecto extremas: Nuevas relaciones 1:4, 4:1, 1:8, 8:1 añadidas, adecuadas para imágenes largas, carteles y pancartas. Renderizado de texto: Generación de texto avanzada, adecuada para infografías y diseños de carteles de marketing. Mejora de búsqueda: Google Search + Image Search integrados. Fundamentación: Proceso de razonamiento incorporado; los prompts complejos se razonan antes de la generación.Entrada:$60/M
Salida:$240/M
MiMo-V2.5-Pro es el modelo insignia de Xiaomi y sobresale en capacidades de agente de propósito general y en ingeniería de software compleja.Entrada:$60/M
Salida:$240/M
MiMo-V2.5 es el modelo nativo completamente multimodal de Xiaomi. Logra un rendimiento de agente de nivel profesional con aproximadamente la mitad del costo de inferencia, mientras supera a MiMo-V2-Omni en percepción multimodal en tareas de comprensión de imágenes y video.Entrada:$2.4/M
Salida:$14.4/M
GPT-5.5 destaca en escritura de código, investigación en línea, análisis de datos y operaciones entre herramientas. El modelo no solo mejora su autonomía para manejar tareas complejas de múltiples pasos, sino que también mejora significativamente las capacidades de razonamiento y la eficiencia de ejecución, manteniendo la misma latencia que su predecesor, lo que marca un paso importante hacia la automatización de oficina impulsada por IA.Contexto:2,000,000
El lanzamiento de Grok 4.20 introduce una arquitectura multiagente (varios agentes especializados coordinados en tiempo real), modos de contexto ampliados y mejoras centradas en el seguimiento de instrucciones, la reducción de alucinaciones y las salidas estructuradas y compatibles con herramientas.Entrada:$0.32/M
Salida:$1.92/M
Qwen 3.6-Plus ya está disponible, con capacidades mejoradas para el desarrollo de código y mayor eficiencia en el reconocimiento e inferencia multimodal, lo que hace que la experiencia de Vibe Coding sea aún mejor.Entrada:$0.76/M
Salida:$3.19998/M
Kimi K2.6 es el modelo más reciente y más inteligente de Kimi, con capacidades más sólidas y estables para la escritura de código a largo plazo, un cumplimiento de instrucciones significativamente mejorado, unas capacidades de autocorrección significativamente mejoradas y compatibilidad con entrada de texto, imagen y video, modos con y sin razonamiento, y tareas de diálogo y de agente.Entrada:$0.8/M
Salida:$3.2/M
GLM-5.1 (lanzado en abril de 2026), diseñado específicamente para tareas autónomas de horizonte largo. A diferencia de los modelos tradicionales optimizados para interacciones breves, GLM-5.1 destaca por mantener la alineación con los objetivos, reducir la deriva estratégica y ofrecer resultados de nivel de producción durante periodos prolongados — hasta 8 horas de trabajo autónomo continuo en una única tarea compleja. Representa un gran salto en la ingeniería de agentes, trasladando la evaluación desde la inteligencia de un solo turno a la ejecución sostenida en el mundo real.Entrada:$60/M
Salida:$240/M
Claude Mythos Preview es nuestro modelo de frontera más capaz hasta la fecha y muestra un
salto notable en las puntuaciones en muchos benchmarks de evaluación en comparación con nuestro anterior modelo de frontera, Claude Opus 4.6.Entrada:$0.8/M
Salida:$2.4/M
MiMo-V2-Pro es el modelo fundacional insignia de Xiaomi, con más de 1T de parámetros totales y una longitud de contexto de 1M, profundamente optimizado para escenarios orientados a agentes. Es altamente adaptable a frameworks generales de agentes como OpenClaw. Se sitúa entre la élite mundial en los benchmarks estándar PinchBench y ClawBench, con un rendimiento percibido que se acerca al de Opus 4.6. MiMo-V2-Pro está diseñado para servir como el cerebro de los sistemas de agentes, orquestar flujos de trabajo complejos, impulsar tareas de ingeniería de producción y ofrecer resultados de manera fiable.Entrada:$0.32/M
Salida:$1.6/M
MiMo-V2-Omni es un modelo omnimodal de vanguardia que procesa de forma nativa entradas de imagen, video y audio dentro de una arquitectura unificada. Combina una sólida percepción multimodal con capacidad de agencia - anclaje visual, planificación multietapa, uso de herramientas y ejecución de código - lo que lo hace muy adecuado para tareas complejas del mundo real que abarcan varias modalidades. Ventana de contexto de 256K.Contexto:200k
Entrada:$0.96/M
Salida:$3.264/M
GLM-5 Turbo es un nuevo modelo de Z.ai diseñado para la inferencia rápida y un alto rendimiento en entornos basados en agentes, como los escenarios de OpenClaw.Contexto:1,050,000
GPT-5.4 es el modelo de vanguardia para trabajos profesionales complejos. Reasoning.effort admite: none (default), low, medium, high y xhigh.Entrada:$1.4/M
Salida:$11.2/M
Modelo GPT-5.3 Instant utilizado en ChatGPTEntrada:$0.2/M
Salida:$1.2/M
Gemini 3.1 Flash-Lite es un modelo de nivel 3 (Tier-3) de la serie Gemini 3 de Google, altamente eficiente en costos y de baja latencia, diseñado para flujos de trabajo de IA de producción de gran volumen en los que el rendimiento y la velocidad importan más que la profundidad máxima de razonamiento. Combina una amplia ventana de contexto multimodal con un rendimiento de inferencia eficiente, a un costo más bajo que el de la mayoría de los modelos insignia.Claude Opus 4.6 es el modelo de lenguaje grande de clase “Opus” de Anthropic, lanzado en febrero de 2026. Se posiciona como un caballo de batalla para el trabajo del conocimiento y los flujos de trabajo de investigación — mejorando el razonamiento en contextos extensos, la planificación en múltiples pasos, el uso de herramientas (incluidos flujos de trabajo de software basados en agentes) y tareas de uso de la computadora, como la generación automatizada de diapositivas y hojas de cálculo.