Modelo - Un Acceso API a Más de 500 Modelos de IA - CometAPI

Nano Banana 2

Nano Banana 2

Descripción general de capacidades principales: Resolución: Hasta 4K (4096×4096), a la par de Pro. Consistencia de imágenes de referencia: Hasta 14 imágenes de referencia (10 objetos + 4 personajes), manteniendo la consistencia de estilo y personajes. Relaciones de aspecto extremas: Nuevas relaciones 1:4, 4:1, 1:8, 8:1 añadidas, adecuadas para imágenes largas, carteles y pancartas. Renderizado de texto: Generación de texto avanzada, adecuada para infografías y diseños de carteles de marketing. Mejora de búsqueda: Google Search + Image Search integrados. Fundamentación: Proceso de razonamiento incorporado; los prompts complejos se razonan antes de la generación.

Claude Opus 4.6

Claude Opus 4.6

Claude Opus 4.6 es el modelo de lenguaje grande de clase “Opus” de Anthropic, lanzado en febrero de 2026. Se posiciona como un caballo de batalla para el trabajo del conocimiento y los flujos de trabajo de investigación — mejorando el razonamiento en contextos extensos, la planificación en múltiples pasos, el uso de herramientas (incluidos flujos de trabajo de software basados en agentes) y tareas de uso de la computadora, como la generación automatizada de diapositivas y hojas de cálculo.

Claude Sonnet 4.6

Claude Sonnet 4.6

Claude Sonnet 4.6 es nuestro modelo Sonnet más capaz hasta la fecha. Es una actualización completa de las capacidades del modelo en programación, uso de computadoras, razonamiento con contexto largo, planificación de agentes, trabajo del conocimiento y diseño. Sonnet 4.6 también ofrece una ventana de contexto de 1M de tokens en beta.

GPT-5.4 nano

GPT-5.4 nano

Contexto:400,000

Entrada:$0.16/M

GPT-5.4 nano está diseñado para tareas en las que la velocidad y el coste son primordiales, como la clasificación, la extracción de datos, la ordenación y los subagentes.

GPT-5.4 mini

GPT-5.4 mini

Contexto:400,000

GPT-5.4 mini aporta las fortalezas de GPT-5.4 a un modelo más rápido y eficiente, diseñado para cargas de trabajo de alto volumen.

Claude Mythos Preview

Claude Mythos Preview

Claude Mythos Preview es nuestro modelo de frontera más capaz hasta la fecha y muestra un salto notable en las puntuaciones en muchos benchmarks de evaluación en comparación con nuestro anterior modelo de frontera, Claude Opus 4.6.

mimo-v2-pro

mimo-v2-pro

MiMo-V2-Pro es el modelo fundacional insignia de Xiaomi, con más de 1T de parámetros totales y una longitud de contexto de 1M, profundamente optimizado para escenarios orientados a agentes. Es altamente adaptable a frameworks generales de agentes como OpenClaw. Se sitúa entre la élite mundial en los benchmarks estándar PinchBench y ClawBench, con un rendimiento percibido que se acerca al de Opus 4.6. MiMo-V2-Pro está diseñado para servir como el cerebro de los sistemas de agentes, orquestar flujos de trabajo complejos, impulsar tareas de ingeniería de producción y ofrecer resultados de manera fiable.

mimo-v2-omni

mimo-v2-omni

Entrada:$0.32/M

MiMo-V2-Omni es un modelo omnimodal de vanguardia que procesa de forma nativa entradas de imagen, video y audio dentro de una arquitectura unificada. Combina una sólida percepción multimodal con capacidad de agencia - anclaje visual, planificación multietapa, uso de herramientas y ejecución de código - lo que lo hace muy adecuado para tareas complejas del mundo real que abarcan varias modalidades. Ventana de contexto de 256K.

MiniMax-M2.7

MiniMax-M2.7

Entrada:$0.24/M

MiniMax-M2.7 ofrece la misma inteligencia de primer nivel que la versión estándar, incluida la autoevolución recursiva y la productividad de oficina de nivel experto, pero está diseñado para aplicaciones que requieren latencia inferior a un segundo y generación de tokens de alta velocidad. Gracias a una arquitectura de backbone de inferencia mejorada, su velocidad de salida es un 66 % más rápida que la del modelo estándar (alcanzando 100 tps). Es la opción preferida para asistentes interactivos de programación, ejecución de bucles de agentes en tiempo real y pipelines empresariales de alto rendimiento con requisitos estrictos de tiempo de finalización.

GLM 5 Turbo

GLM 5 Turbo

Entrada:$0.96/M

Salida:$3.264/M

GLM-5 Turbo es un nuevo modelo de Z.ai diseñado para la inferencia rápida y un alto rendimiento en entornos basados en agentes, como los escenarios de OpenClaw.

GPT-5.4 pro

GPT-5.4 pro

Contexto:1,050,000

Versión de GPT-5.4 que produce respuestas más inteligentes y precisas.

GPT-5.4

GPT-5.4

Contexto:1,050,000

GPT-5.4 es el modelo de vanguardia para trabajos profesionales complejos. Reasoning.effort admite: none (default), low, medium, high y xhigh.

GPT-5.3 Chat

GPT-5.3 Chat

Modelo GPT-5.3 Instant utilizado en ChatGPT

Gemini 3.1 Flash-Lite

Gemini 3.1 Flash-Lite

Gemini 3.1 Flash-Lite es un modelo de nivel 3 (Tier-3) de la serie Gemini 3 de Google, altamente eficiente en costos y de baja latencia, diseñado para flujos de trabajo de IA de producción de gran volumen en los que el rendimiento y la velocidad importan más que la profundidad máxima de razonamiento. Combina una amplia ventana de contexto multimodal con un rendimiento de inferencia eficiente, a un costo más bajo que el de la mayoría de los modelos insignia.

Claude Haiku 4.5

Claude Haiku 4.5

El modelo más rápido y con mejor relación costo-beneficio.

Sora 2 Pro

Sora 2 Pro

Por Segundo:$0.24

Sora 2 Pro es nuestro modelo de generación multimedia más avanzado y potente, capaz de generar videos con audio sincronizado. Puede crear clips de video detallados y dinámicos a partir de lenguaje natural o imágenes.

Sora 2

Sora 2

Por Segundo:$0.08

Modelo de generación de video súper potente, con efectos de sonido, admite formato de chat.

mj_fast_video

mj_fast_video

Por Solicitud:$0.6

Midjourney video generation

Qwen 3.5 Flash

Qwen 3.5 Flash

Entrada:$0.16/M

Como modelo nativo de visión y lenguaje, QWEN3.5-397B-A17B de la serie Qwen3.5 destaca en evaluaciones de referencia integrales, como inferencia, programación, capacidades de agente y comprensión multimodal, ayudando a desarrolladores y empresas a mejorar significativamente la productividad. El modelo utiliza una arquitectura híbrida innovadora que combina atención lineal (Gated Delta Networks) con expertos híbridos dispersos (MoE) para lograr una excelente eficiencia de inferencia: 397 mil millones de parámetros totales y solo 17 mil millones de parámetros activados por propagación hacia adelante, optimizando la velocidad y el costo mientras mantiene la capacidad. También hemos ampliado nuestra compatibilidad con idiomas y dialectos de 119 a 201, proporcionando una mayor disponibilidad y un mejor soporte para usuarios de todo el mundo.

Grok 4.20

Grok 4.20

Contexto:2,000,000

El lanzamiento de Grok 4.20 introduce una arquitectura multiagente (varios agentes especializados coordinados en tiempo real), modos de contexto ampliados y mejoras centradas en el seguimiento de instrucciones, la reducción de alucinaciones y las salidas estructuradas y compatibles con herramientas.

Grok Imagine Video

Grok Imagine Video

Por Segundo:$0.04

Genera videos a partir de prompts de texto, anima imágenes fijas o edita videos existentes con lenguaje natural. La API admite duración, relación de aspecto y resolución configurables para los videos generados — y el SDK se encarga automáticamente del sondeo asíncrono.

gpt-realtime-1.5

gpt-realtime-1.5

Contexto:32,000

El mejor modelo de voz para audio de entrada y de salida.

gpt-audio-1.5

gpt-audio-1.5

El mejor modelo de voz para entrada y salida de audio con Chat Completions.

GPT 5.3 Codex

GPT 5.3 Codex

Contexto:400,000

GPT-5.3-Codex está optimizado para tareas de codificación con agentes en Codex o entornos similares. GPT-5.3-Codex admite configuraciones de esfuerzo de razonamiento low, medium, high y xhigh.

Doubao Seedream 5

Doubao Seedream 5

Por Solicitud:$0.028

Seedream 5.0 Lite es un modelo unificado multimodal de generación de imágenes, dotado de capacidades de pensamiento profundo y búsqueda en línea, que presenta una mejora integral en sus capacidades de comprensión, razonamiento y generación.

Gemini 3.1 Pro

Gemini 3.1 Pro

Gemini 3.1 Pro es la siguiente generación en la serie de modelos Gemini, una suite de modelos de razonamiento altamente capaces y multimodales de forma nativa. Gemini 3 Pro es ahora el modelo más avanzado de Google para tareas complejas y puede comprender conjuntos de datos enormes y problemas desafiantes de diferentes fuentes de información, incluidos texto, audio, imágenes, video y repositorios de código completos

qwen3.5-plus

qwen3.5-plus

Entrada:$0.32/M

Los modelos Plus de la serie nativa de visión‑lenguaje Qwen3.5 se basan en una arquitectura híbrida que integra mecanismos de atención lineal con modelos de mezcla de expertos dispersos, logrando una mayor eficiencia de inferencia.

qwen3.5-397b-a17b

qwen3.5-397b-a17b

Entrada:$0.48/M

El modelo nativo de visión-lenguaje 397B-A17B de la serie Qwen3.5 se basa en una arquitectura híbrida que integra un mecanismo de atención lineal con un modelo de mezcla de expertos dispersa, logrando una mayor eficiencia en la inferencia.

Doubao-Seed-2.0

Doubao-Seed-2.0

Entrada:$0.024/M

🔹 Serie Doubao Seed 2.0 doubao-seed-2-0-code-preview-260215 Se centra en las capacidades de razonamiento en cadena larga y en la estabilidad en tareas complejas, y está adaptado a escenarios complejos en entornos empresariales reales. Como la versión de Seed 2.0 mejorada para programación, se adapta mejor a Agentic Coding. doubao-seed-2-0-lite-260215 Equilibra la calidad de generación con la velocidad de respuesta, lo que lo hace adecuado como un modelo de uso general de nivel de producción. doubao-seed-2-0-mini-260215 Diseñado para escenarios de baja latencia, alta concurrencia y sensibles al costo. Hace hincapié en la respuesta rápida y el despliegue flexible de inferencia, y admite capacidades de pensamiento de cuatro niveles y de comprensión multimodal.

MiniMax M2.5

MiniMax M2.5

Entrada:$0.24/M

MiniMax-M2.5 es un modelo de lenguaje a gran escala de última generación diseñado para la productividad en el mundo real. Entrenado en una amplia variedad de entornos digitales de trabajo complejos del mundo real, M2.5 se basa en el dominio de M2.1 en programación para expandirse al trabajo de oficina general, alcanzando fluidez en la creación y el manejo de archivos de Word, Excel y Powerpoint, en el cambio de contexto entre distintos entornos de software y en el trabajo con distintos equipos de agentes y humanos.