Comparativa de precios de la API de LLM de 2026: GPT-5.5, Claude Sonnet 4.6, Gemini 3.5 Flash y DeepSeek V4

La fijación de precios es la decisión individual más trascendental al elegir un LLM de frontera, y también es la dimensión en la que la mayoría de comparativas publicadas quedan desactualizadas en menos de un trimestre. Este artículo corta por lo sano. A continuación se muestra una visión actualizada y con fuentes de los precios por tokens de entrada y salida en los cuatro modelos que concentran la mayoría del tráfico en producción de modelos de frontera en 2026 (GPT-5.5 de OpenAI, Claude Sonnet 4.6 de Anthropic, Gemini 3.5 Flash de Google y DeepSeek V4), junto con las palancas que cambian significativamente tu factura a escala: caché de prompts, procesamiento por lotes y recargos por contexto largo.

La pieza se articula en torno a dos preguntas. Primero: a precio de lista, ¿cuánto cuesta cada modelo por millón de tokens, y cómo se comparan las tarifas indicadas en las entradas y salidas que realmente impulsan una factura de producción? Segundo: cuando aplicas una carga representativa (100 millones de tokens al mes, 80% de entrada y 20% de salida, con tasas de acierto de caché realistas), ¿cuál es la factura mensual en dólares en cada modelo? La primera respuesta establece la tabla de tarifas; la segunda te dice en qué se convierte esa tabla cuando toca un patrón de producción real.

Lectura rápida: En los cuatro modelos de frontera, los precios de lista abarcan aproximadamente dos órdenes de magnitud. DeepSeek V4 es el más barato con $0.435 por millón de tokens de entrada; Claude Opus 4.7 es el más caro con $5.00. La forma de tu carga, en particular tu tasa de acierto de caché y tu relación entrada/salida, cambia qué modelo es el más barato en la práctica, a menudo más de lo que sugiere la tabla de tarifas.

Por qué una comparación de precios “manzana con manzana” es más difícil de lo que parece

Las páginas de precios de los proveedores están escritas para los clientes de ese proveedor, no para alguien que evalúa cuatro opciones lado a lado. El resultado es que compararlas produce tres trampas persistentes:

Los tokens no son iguales entre proveedores. Claude Opus 4.7 incorpora un nuevo tokenizador que puede producir hasta un 35% más de tokens para el mismo texto de entrada que Opus 4.6. El tokenizador de Gemini difiere del de OpenAI. La tabla de tarifas es por millón de tokens, pero el conteo de tokens para el mismo prompt varía entre proveedores, lo que significa que la tarifa principal es solo una primera aproximación del costo relativo.
Los niveles de precio por contexto largo crean “acantilados” de costo. La familia GPT-5.5 de OpenAI tiene tarifas separadas para contexto corto y largo que se activan alrededor de los 270,000 tokens. Anthropic, por el contrario, mantiene la misma tarifa por token en toda su ventana de contexto de 1M. Las cargas que se sitúan cerca de estos umbrales se tarifican de forma muy distinta a las que se mantienen cómodamente por debajo.
Los descuentos se acumulan, no son independientes. La caché de prompts, el procesamiento por lotes y los niveles de volumen específicos del proveedor pueden reducir drásticamente el costo efectivo, y se acumulan. Una solicitud en lote cacheada en Anthropic puede costar tan solo el 5% de una solicitud estándar sin caché. Una comparación de precios que ignore estas palancas sobrestima el costo de lista, a veces en un orden de magnitud.

La comparación a continuación normaliza estas trampas donde es posible y las señala explícitamente donde no lo es.

La comparación de precios de LLM de frontera para 2026

Todas las cifras en dólares estadounidenses por millón de tokens. Con fuentes en la documentación oficial de cada proveedor a mayo de 2026.

Modelo	Entrada	Salida	Entrada en caché	Lote (50% de descuento)	Ventana de contexto	Recargo por contexto largo
GPT-5.5	$5.00	$30.00	$0.50	$2.50 / $15.00	1M	Sí (~270K)
Claude Sonnet 4.6	$3.00	$15.00	$0.30	$1.50 / $7.50	1M	Ninguno
Claude Opus 4.7	$5.00	$25.00	$0.50	$2.50 / $12.50	1M	Ninguno
Gemini 3.5 Flash	$1.50	$9.00	$0.15	$1.00 / $6.00	1M	Sí (200K)
DeepSeek V4	$0.435	$0.87	$0.0028	No disponible	384K	Ninguno

Cómo leer la tabla: La entrada en caché es la tarifa pagada por tokens servidos desde la caché de prompts (típicamente prompts del sistema, ejemplos few-shot o prefijos de documentos que se repiten entre solicitudes). Lote es la tarifa pagada para cargas asincrónicas con hasta 24 horas de latencia. Recargo por contexto largo indica si el proveedor aumenta las tarifas por encima de un umbral de longitud de contexto; para quienes lo hacen, se indica el umbral entre paréntesis.

Dónde gana cada modelo

GPT-5.5: el valor predeterminado de mayor capacidad para razonamiento difícil y trabajo agéntico

GPT-5.5 es el modelo de frontera de OpenAI para cargas profesionales complejas: agentes de código, planificación de múltiples pasos, uso de herramientas de larga duración y análisis de documentos donde la profundidad de razonamiento es el requisito dominante. También es el más caro de los principales modelos de frontera de EE. UU. en entrada ($5.00 por millón) y el más alto en salida ($30.00 por millón), lo que significa que se gana su lugar en cargas donde la alternativa es pagar una tarifa insignia a otro modelo que resuelve el problema con menos fiabilidad. GPT-5.5 admite caché con un descuento del 90%, procesamiento por lotes con un 50% de descuento y la tarificación por contexto largo se activa alrededor de los 270K tokens, lo cual es relevante para bases de código muy extensas o contextos de repositorio completo, pero no para cargas típicas de RAG.

Claude Sonnet 4.6: el predeterminado recomendado para la mayor parte del tráfico en producción

Sonnet 4.6 es el modelo recomendado de Anthropic para la mayoría de las cargas en producción, y la relación precio-capacidad es la razón. Con $3 en entrada y $15 en salida por millón de tokens, se sitúa por debajo de GPT-5.5 en ambas tarifas y ofrece calidad cercana a Opus en las cargas que dominan la mayoría de sistemas de producción: programación, análisis, canalizaciones RAG, chat de cara al cliente y generación de salidas estructuradas. La característica distintiva de precio de Sonnet es que la ventana de contexto completa de 1M tokens está disponible a tarifas estándar (no hay recargo por contexto largo), lo que lo convierte en la opción creíble más barata para cargas que ocasionalmente necesitan incorporar documentos muy largos o repositorios completos. La caché de prompts reduce la entrada en caché al 10% de la tarifa estándar, decisivo para cualquier carga con un prompt del sistema estable.

Gemini 3.5 Flash: el flagship con la agresividad de precio más alta para trabajo de contexto corto

Gemini 3.5 Flash es el modelo de clase insignia más barato de un proveedor importante de EE. UU. en precios brutos de API, con $1.50 en entrada y $9.00 en salida por millón de tokens. Para la mayoría del tráfico en producción, ese es el nivel de precios relevante y reduce materialmente tanto a GPT-5.5 como a Claude Opus 4.7. Un precio más alto que modelos Flash anteriores conduce a costos generales mayores en escenarios agénticos intensivos en tokens (costo de Intelligence Index 5.5x frente a Gemini 3 Flash debido a precio + uso). La otra característica distintiva de Gemini es el nivel gratuito genuino en Google AI Studio, útil para prototipado pero no relevante para modelos de costo en producción.

DeepSeek V4: dramáticamente más barato, con matices que vale la pena entender

DeepSeek V4 lista a $0.435 por millón de tokens de entrada y $0.87 por millón de tokens de salida, lo que es entre cinco y setenta veces más barato que los modelos de frontera de EE. UU. según con cuál lo compares. El modelo en sí es competitivo en muchos benchmarks, particularmente razonamiento y código. Los matices conviene explicitarlos: los datos se procesan en China, lo cual es inviable para algunas cargas reguladas; la calidad en inglés es sólida pero el modelo está optimizado de manera diferente a los modelos de frontera de EE. UU., y las pruebas cara a cara en tu carga específica son imprescindibles, no opcionales. Para cargas donde estos matices son aceptables, DeepSeek realmente cambia la ecuación de costo.

Nota sobre Claude Opus 4.7 vs Sonnet 4.6. Opus se incluye en la tabla por completitud, pero para la gran mayoría del tráfico en producción, Sonnet 4.6 es la mejor elección económica. Opus cuesta 1.67x que Sonnet tanto en entrada como en salida, y para cargas donde Sonnet es suficiente (que son la mayoría), esa prima no tiene un beneficio compensatorio. Recurre a Opus cuando las evaluaciones muestren que Sonnet falla en una clase específica de tareas: agentes de código altamente autónomos, flujos profesionales de largo horizonte y tareas donde el seguimiento de instrucciones en el margen es decisivo.

Ejemplo práctico: lo que realmente cuestan 100 millones de tokens al mes

El precio por millón de tokens dice poco hasta que toca una carga representativa. El ejemplo siguiente usa un perfil que aproxima un sistema de producción no trivial: 100 millones de tokens totales al mes, divididos en 80% entrada (80M) y 20% salida (20M), con una tasa de acierto de caché del 30% en la parte de entrada. Este patrón es ampliamente representativo de un chat de cara al cliente o una carga RAG con un prompt del sistema y contexto de documentos estables.

La fórmula para cada modelo: costo de entrada en caché + costo de entrada sin caché + costo de salida. La entrada en caché se factura al 10% de la tarifa estándar para los proveedores que ofrecen caché.

Modelo	Entrada en caché (24M)	Entrada sin caché (56M)	Salida (20M)	Factura mensual total
GPT-5.5	$12.00	$280.00	$600.00	$892.00
Claude Sonnet 4.6	$7.20	$168.00	$300.00	$475.20
Claude Opus 4.7	$12.00	$280.00	$500.00	$792.00

Lo que esto indica. En una carga representativa, Sonnet 4.6 cuesta aproximadamente la mitad que GPT-5.5. DeepSeek está en un universo de costos distinto. Estos son números a precio de lista; aplicar procesamiento por lotes cuando sea elegible reduce cada total en un 50% adicional en entradas y salidas (aunque no en los aciertos de caché).

Dos observaciones que conviene retener. Primero: la caché es la palanca individual más impactante que controlas. El ejemplo anterior asume una tasa de acierto de caché del 30%; súbela al 60% (totalmente alcanzable para cargas con un prompt del sistema estable) y el costo total cae aproximadamente otro 25%. Segundo: la relación entrada/salida importa mucho. Las cargas intensivas en salida (resumen, redacción de formato largo) sesgan hacia proveedores con tarifas de salida más baratas, mientras que las intensivas en entrada (análisis de contexto largo, recuperaciones RAG voluminosas) sesgan hacia proveedores con tarifas de entrada más baratas y sin recargo por contexto largo.

Los costos ocultos que no aparecen en la página de precios

El precio de lista es el suelo, no el techo. Hay cinco costos adicionales que vale la pena presupuestar explícitamente, porque rutinariamente sorprenden a equipos que escalan de prototipo a producción:

Tokens de razonamiento. Los modelos con modos de razonamiento extendido (GPT-5.5 Thinking, DeepSeek V4 thinking mode) generan contenido interno de razonamiento que cuenta como tokens de salida. Una sola llamada de razonamiento de alto esfuerzo sobre un prompt largo puede consumir 20,000 tokens de razonamiento, que son $0.60 de costo de salida en GPT-5.5 antes de producir la respuesta visible. Presupuesta por carga, no por solicitud.
Recargos por contexto largo. Tanto Gemini 3.5 Flash como GPT-5.5 aumentan tarifas por encima de un umbral de longitud de contexto. Las canalizaciones RAG que incluyen documentos grandes pueden empujar silenciosamente cada solicitud al tramo superior sin que nadie lo note hasta que llega la factura. Mide las longitudes reales de tus prompts en producción y comprueba si estás cruzando el umbral.
Multiplicadores de residencia de datos. Anthropic cobra un 10% adicional por inferencia solo en EE. UU. en Opus 4.7 y Sonnet 4.6. OpenAI aplica un recargo del 10% en endpoints de residencia de datos para la familia GPT-5.4. Para cargas reguladas donde esto importa, inclúyelo en la tabla de tarifas desde el día uno.
Deriva de verbosidad en la salida. Cuando una nueva versión de modelo es más exhaustiva por defecto (como, según se informa, lo es Opus 4.7 respecto a Opus 4.6), los tokens de salida por respuesta pueden aumentar incluso si la longitud de la entrada se mantiene constante. La salida se tarifica a 5x la entrada en la línea de Anthropic, así que un incremento del 20% en verbosidad de salida es un 20% de aumento en el impulsor de costo dominante.
Solicitudes fallidas y reintentos. La mayoría de los proveedores no cobran por errores 4xx y 5xx, pero sí cobran por generaciones parciales y reintentos que tienen éxito en el segundo intento. En sistemas de producción con lógica activa de reintentos, esto puede añadir unos cuantos puntos porcentuales a la factura. Conviene saberlo al conciliar las facturas del proveedor frente al costo esperado.

Cómo encaja CometAPI

Los cuatro modelos anteriores, más otros 500+, están disponibles a través de CometAPI en un único endpoint compatible con OpenAI, con una sola credencial, facturación unificada y sin configuración de cuentas por proveedor. La tarificación en CometAPI se mide por token a las mismas tarifas por modelo publicadas por los proveedores subyacentes, con créditos comprados por adelantado y aplicados a cualquier modelo del catálogo. El valor de enrutar a través de CometAPI es operativo más que por token: una credencial que gestionar, una factura que conciliar y la capacidad de cambiar de GPT-5.5 a Claude Sonnet 4.6 a Gemini 3.5 Flash cambiando una sola cadena en tu código.

Hay cargas para las que el acceso directo al proveedor es la elección correcta. Si ejecutas una carga de un solo modelo a muy alto volumen en un proveedor, con un contrato empresarial negociado, la economía unitaria de ir directo es mejor. Si tu postura de cumplimiento requiere una relación específica con un proveedor de registro, un agregador complica en lugar de simplificar esa conversación. Para la mayoría de equipos que ejecutan cargas de producción multimodelo, sin embargo, la fricción operativa de gestionar tres o cuatro relaciones directas con proveedores es en sí misma un costo significativo, uno que la tabla de tarifas no captura.

Prueba la comparación en tu carga. El nivel gratuito en CometAPI te permite ejecutar el mismo prompt contra GPT-5.5, Sonnet 4.6, Gemini 3.5 Flash y DeepSeek V4 desde un único endpoint, sin registros separados. Para una decisión de costos específica de la carga, ese ejercicio de una hora vale más que cualquier comparativa de precios jamás publicada.

Cómo usar esta comparación

El modelo adecuado para tu carga depende de qué dimensión de la tabla de tarifas importa más para la forma de tu tráfico. Un marco práctico de decisión:

Si la profundidad de razonamiento es el cuello de botella (flujos de trabajo agénticos, planificación compleja de múltiples pasos, las tareas de programación más difíciles), empieza con GPT-5.5 o Claude Opus 4.7. La prima es real pero está justificada en estas cargas.
Si quieres la mejor relación precio-capacidad para tráfico general en producción, Claude Sonnet 4.6 es el predeterminado recomendado. Capacidad casi de frontera, contexto completo de 1M a tarifas estándar y sólido soporte de caché.
Si eres sensible al costo y tu carga se sitúa por debajo de 200K de contexto, Gemini 3.5 Flash es la opción de clase insignia más barata y creíble de un proveedor importante de EE. UU.
Si tu carga es de alto volumen y dominada por el precio, y la postura de residencia de datos de DeepSeek es aceptable, V4 cambia la ecuación de costo lo suficiente como para merecer una evaluación seria, especialmente para cargas con forma de lote.

¿Quieres profundizar en la optimización de costos? Los datos de precios anteriores son la base para el enrutamiento: la práctica de enviar distintas consultas a distintos modelos en función de cuál puede manejarlas al menor costo. La pieza complementaria, Reducir a la mitad los costos de API de LLM: una guía de enrutamiento de modelos para cargas de producción en 2026, recorre los patrones de enrutamiento que convierten esta tabla de tarifas en ahorros reales en tu factura mensual.